This topic created in 4374 days ago, the information mentioned may be changed or developed.
我的爬虫大致思想的是这样的,我想爬取某些列表页面上所有的列表url,有很多页,我遍历这些页面,然后抓去这些页面上的内容,当某个页面请求出错的时候,我就将它保存到一个数据库,下次从这个数据库里面把错误的取出来,然后再处理,这样一直循环,直到所有的都被处理完。不多说了,直接代码吧(更详细的问题描述见代码的注释):
不知道各位对我这段代码有什么看法,或者吐槽也行,自己找了一些相关资料,成效不大。
10 replies • 2014-06-05 15:07:59 +08:00
 |
|
1
jander Jun 5, 2014
应该加上 from gevent import monkey; monkey.patch_socket()
|
 |
|
3
jander Jun 5, 2014
哦,没看仔细。 redis连接异常。你的代码使用redis.ConnectionPool, 其实redis可以直接连,内部已经使用pool实现: redis.StrictRedis(host='localhost', port=6379, db=0) 你可以直接连试试。
|