目前在单核cpu下测试,想多爬取一些网站,但是scrapy是基于twisted的single-threading。
能否使用多线程?
我的思路:
给每个spider开辟一个thread,在这个线程里完成请求(start_requests)、解析(parse)、入库(pipelines)等动作。
可行否?
scrapy是 single-thread 不过应该可以设定同时跑几只 spider
CONCURRENT_REQUESTS
http://doc.scrapy.org/en/late...