首页 > scrapy多次运行时如何避免重复解析上次已处理过的详情页url

scrapy多次运行时如何避免重复解析上次已处理过的详情页url

场景:定时重复爬一个新闻列表,并把下一级的新闻详情页的文章正文等信息处理入库。

问题:scrapy爬虫定时重复运行时如何避免重复解析上次已处理过的详情页url?我现在只能做到入库的时候排重。我只想处理一次,忽略正文可能修改的情况。


这个回答帮助我了,不过我还不会redis,只好用一个sqlite还代替,可能效率会比较低。
基于python的scrapy爬虫,关于增量爬取是怎么处理的? http://t.cn/R5DWnap

【热门文章】
【热门文章】