首页 > scrapy爬虫在第二层的时候爬不全?

scrapy爬虫在第二层的时候爬不全?

scrapy写的爬虫需要爬两层
1、开始页是一个列表页,有100页,用for循环生成网址;
2、每个列表页有10个项,每个项有一个通向详情页的url,用parse类循环获取每页的这10个url,将url提交到爬取详情的parse_item类;
3、parse_item类进行爬取每个详情页。

问题:
显示如下信息

2015-10-08 22:24:53 [scrapy] INFO: Crawled 172 pages (at 172 pages/min), scraped 107 items (at 107 items/min)
2015-10-08 22:25:53 [scrapy] INFO: Crawled 172 pages (at 0 pages/min), scraped 107 items (at 0 items/min)
2015-10-08 22:26:53 [scrapy] INFO: Crawled 172 pages (at 0 pages/min), scraped 107 items (at 0 items/min)
一直都这样....

也就是详情页抓不全,不知道问题出在哪里。
补充:我有用redis,不知跟redis需要进行什么设置有无关系。


可能是对ip的限制,使用ip池


使用 scrapy 的 log 功能。

【热门文章】
【热门文章】