首页 > 用爬虫获取数据时,如何不增加对方网站的压力?

用爬虫获取数据时,如何不增加对方网站的压力?

1、不影响对方的访问速度
2、不被对方察觉

随风潜入夜、润物细无声的那种。

要注意哪些方面,或者有什么办法?

请教。


还有一点上面没有提到的,可以查看网站的robots.txt。
看看网站制定的详细标准,然后遵循它的规定来爬取。


有一个办法你试试,就是有点慢。
设置不停的重启你的路由器,但是得保证爬虫的路径不要断了。爬一晚上,ip总是变化的,而且不是连续爬取,所以,相对来讲两个问题都解决了吧。

喜欢你就拍拍手~


想完全没有痕迹是不可能的,因为你不可能绕过http请求去访问,所以服务器端那边一定会留下access的记录。
思路肯定是尽量模拟人的行为去访问可以掩盖爬虫自动抓取的迹象。

@xelz 说了几个基本的点,附加两点:

1. 爬行频率要进行控制,不要短时间访问大量请求。
2. 每次访问间隔时间要尽量随机,更像是人的行为。


一般情况下,IP、UA、Referrer是记录在日志里的~so 要做到人不知鬼不觉,起码做到以下三点

  1. 随机换代理
  2. 随机换UserAgent
  3. 最好带上Referrer

补充楼上的回答。
1、只要你的对网站进行了访问它都有机会记录下来,“压力”这个词在你很暴力的爬取的时候会有,如果你访问时间控制的好的话就能避免“暴力”。

2、如果你是想润物细无声(让它不知道你是爬虫)的话,除了请求页面,你还得时不时象征性的请求一下资源文件(图片 js css),这样看着才像浏览器。

【热门文章】
【热门文章】