用 python 写了一个爬虫,就是简单的网页抓取,在运行一天左右后就自己停了,没有出错信息。在 google 一番后看到某个人说因为调试输出过多(也就是 print 函数)导致缓冲区溢出,所以意外停止。问一下大家有可能是这个问题吗?看大家写了那么多爬虫一直 print 也没有这种情况啊。
1
nyanyh Mar 16, 2017
流程里多打几次 log 就能看出问题了
|
2
CosimoZi Mar 16, 2017
不要 print,用 logging 模块
|
3
LeeSeoung Mar 16, 2017
把所有 print 注释掉再跑一遍不就知道是不是了。。
|
4
ic2y Mar 16, 2017
我给你说一个可能的原因。。我当初是碰到 这种情况了。。当时我的爬虫,爬到了有人分享的 Android 开发工具包。。好几个 G 的文件。。爬虫没做判断,自己在那里下载,崩掉了。 。你做做 log ,然后多考虑特殊情况。捕捉 Exception
|
5
SunnyFeng Mar 16, 2017
放弃 print , 学习一下怎么用 log 吧,设计良好的 log 比用完就删的 print 有用得多。
|
6
klxq15 OP 谢谢大家都回答,目前已经删除 print 输出调试,正在测试是不是这方面的问题,也准备从 print 转向 log
|
7
julyclyde Mar 16, 2017
如果是这个原因的话,你把内容 print 到哪儿去了?
|
8
dangyuluo Mar 17, 2017
logstash 非常好用
|