1
zhwei 2014-02-21 16:37:39 +08:00
pycurl是封装的curl, 效率要高点,但是requests更加人性化,更易用,如果用于爬虫的话推荐requests,毕竟效率可以通过多线程或者异步提高。
|
2
piglei 2014-02-21 17:14:54 +08:00
如楼上所说,“效率”这个东西到了网络库上来说,最大的问题是IO,所以库本身的执行效率来说并不是那么重要。和效率有关的指标还是IO相关的,比如这个库是不是支持keep-alive,是不是支持异步化等等等等。
|
3
cute 2014-02-21 17:16:57 +08:00 2
|
4
wangfengmadking 2014-02-21 17:37:10 +08:00
还有就是requests原生不支持socket5代理。。。
|
5
pubby 2014-02-21 18:20:26 +08:00
一直用gearman
再用node写一个worker,支持socks5代理 爬虫直接将抓取任务交给gearman,异步执行 |