首先: 我知道紧凑着写两条请求非阻塞IO是有效果的,请求1并不会阻塞请求2,如下:
request_one = session.get('http://httpbin.org/get')
request_two = session.get('http://httpbin.org/get?foo=bar')
但我的问题是有个循环,每次循环调用一次请求,然后处理请求数据,这时第二次循环要等第一次请求处理完成吗?
for url in url_list:
request = session.get(url)
data=str(beautifulsoup(request.text))
1
dreampuf 2014-07-24 22:32:23 +08:00
有效果,不会等待上一次。
requests-futures返回的是一个future对象,不是等待请求完成 |
2
leafonsword OP @dreampuf
可我抓取后还要处理数据,要不要等处理完成后才能下一次循环的抓取?假如要等待,那岂不是无所谓什么非阻塞IO,因为还是要等一次循环(抓取+处理抓取后数据)? |
3
dreampuf 2014-07-25 12:07:00 +08:00
@leafonsword 抓去完成之后的处理只会影响CPU,在机器处理能力足够的情况下,比IO要几个量级。
至于每个抓取批次等待所有任务完成的等待,这没有让程序Block在IO wait中,也就是你用request-futures的动因,在这个等待循环中,你还可以做别的事情,比如提取之前抓遇到的数据一个一个处理,或者打印进度条。 |