用scrapy写的爬虫,总共有700个详情页需要爬,可是,总是爬到第443或444页的时候就不爬了,这是为什么?
信息显示如下:
2015-10-15 01:21:16 [scrapy] INFO: Crawled 1192 pages (at 110 pages/min), scraped 444 items (at 45 items/min)
2015-10-15 01:22:16 [scrapy] INFO: Crawled 1192 pages (at 0 pages/min), scraped 444 items (at 0 items/min)
说明:Crawled 1192 pages是包含另外的请求页,如进入详情页的列表页,还有ajax请求页。
会不会是针对单个ip有限制?
尽量模拟浏览器发送请求,加上headers,设置好download_delay。
建立代理ip池。
一起学习。