最近需要抓取百度百科,知道的数据。不需要太多,几万条就够了。
发现抓到几百条,就被重定向了。
想知道,一般大网站是如何防爬虫的,他们如何定位一个未知用户,我是从学校的ip出去的。
这个问题如何解决:
1.减少访问频次(已经很慢了)
2.useragent 轮询
急
菜鸟补充2点: * 随机IP(淘宝上买代理) * 偶尔访问下百度首页
一个叫RankTracker的排名批量查询工具就是使用这个思路。
等高手补充。
最近需要抓取百度百科,知道的数据。不需要太多,几万条就够了。
发现抓到几百条,就被重定向了。
想知道,一般大网站是如何防爬虫的,他们如何定位一个未知用户,我是从学校的ip出去的。
这个问题如何解决:
1.减少访问频次(已经很慢了)
2.useragent 轮询
急
菜鸟补充2点: * 随机IP(淘宝上买代理) * 偶尔访问下百度首页
一个叫RankTracker的排名批量查询工具就是使用这个思路。
等高手补充。