程序是时时抓取一些帖子的浏览量 每 5 分钟抓取一次。
用的是 tornado 框架里面定时的方法
tornado.ioloop.PeriodicCallback(doStart, 60000).start()
每隔十天半个月 这个程序就会出现不会自动抓取了
进程 ps 里还是能看到这个python
的进程
中间要是执行出现问题 后面的就不会再抓取数据了 好像程序一直卡住了
刚开始以为是 pycurl 没有设置超时的问题,可是我设置了 还是会有这个问题
不知道有什么原因了....大神们 帮忙看看
1
rockivy 2015-10-27 10:01:00 +08:00
路过帮顶
|
2
22too 2015-10-27 10:05:57 +08:00 1
弄不好就是底层的锅,不过 python 的网站,暂时没有遇到这个问题
|
3
simpx 2015-10-27 11:12:35 +08:00 1
pstack pid
堆栈看看能不能判断出卡在哪儿了 |
4
dai269619118 OP @simpx 学习了 谢谢
|
5
22too 2015-10-27 12:35:04 +08:00
之前有朋友做爬虫也遇到了,使用的是线程池,一天重启一次,所以你要你可能需要改变执行策略,比如定时执行之类的。而不是一直进行执行!
|
6
dai269619118 OP @22too 是的 就是用线程池 不行只能 crontab
|
7
22too 2015-10-27 14:37:07 +08:00
朋友的代码我看了,代码没问题,但是跑到一定时间,就会不动了,也不是挂了。所以最后推荐使用一天一重启, crontab 值得拥有。
|
8
dai269619118 OP @22too 只能这样了 谢谢
|