q = queue.Queue()
def run()
while True:
url = q.get()
res = requests.get(url)
# 此处把结果返回
t1 = threading.Thread(target=run)
t1.start()
t2...
t3...
def req(url):
q.put(url)
# 此处等待执行完毕获取返回结果并return
# 正常调用
res = req(url)
简单来说就是把url放在一个队列里,由队列去发送请求,方便统一控制频率
在使用的时候和正常使用requests库一样,能满足这样的需求就可以
望各位不吝赐教啊
--
上一个问题:python 爬虫如何使用请求队列?
def req(url):
resq = queue.Queue()
q.put((url, resq))
res = resq.get()
# ...
def run():
while True:
url, resq = q.get()
res = requests.get(url)
resq.put(res)
另一种方法是用 multiprocessing.pool.ThreadPool
,这个接口和 multiprocessing.Pool
一样,但是用的是 threading
:
from multiprocessing.pool import ThreadPool
pool = ThreadPool(num_workers)
def req(url):
res = pool.apply(requests.get, args=(url,))
# ...
协程
生产者消费者模式