V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
pc10201
V2EX  ›  Python

写完爬虫后,对方网站改版后如何第一时间知晓?

  •  
  •   pc10201 · Sep 23, 2016 · 4679 views
    This topic created in 3508 days ago, the information mentioned may be changed or developed.
    比如用 scrapy 写了一个爬虫,用 xpath 写了规则获取信息,然后放在服务器欢快的执行了

    但如果对方网站改版了,如何第一时间感知到呢?

    想到的办法:
    1.跟 sentry 结合,报错了发邮件通知
    2.用 log 记录,然后用 elk 来处理

    有更好或者更优雅的解决办法吗?
    14 replies    2016-09-25 03:43:02 +08:00
    yongzhong
        1
    yongzhong  
       Sep 23, 2016
    有用截图进行分析的
    Magic347
        2
    Magic347  
       Sep 23, 2016
    没有所谓的优雅方案,数据采集永远都是脏活累活,而且属于暗网技术。
    alwayshere
        3
    alwayshere  
       Sep 23, 2016
    v2ex 政治观点是爬虫都是可耻卑鄙的,你发错地方了
    knightdf
        4
    knightdf  
       Sep 23, 2016
    叫他们站长给你打个电话
    viko16
        5
    viko16  
       Sep 23, 2016 via Android
    等报错邮件不就好了么?
    qwer1234asdf
        6
    qwer1234asdf  
       Sep 23, 2016 via iPhone
    看下日志不就知道了
    id4alex
        7
    id4alex  
       Sep 23, 2016
    exception 发邮件
    killerv
        8
    killerv  
       Sep 23, 2016
    这个,采集出错就知道了,或者出错发邮件提醒之类的。没有好办法,而且网站改版的频率不会很高……
    mutoulbj
        9
    mutoulbj  
       Sep 23, 2016
    我也觉得是等出错报警吧。改版也不是一定会影响爬虫。
    araraloren
        10
    araraloren  
       Sep 23, 2016
    ~~找一个木马打入对方内部,然后告诉你
    ytmsdy
        11
    ytmsdy  
       Sep 23, 2016
    打 log ,记录连续错误次数,如果次数过多停止,发邮件。
    Jakesoft
        12
    Jakesoft  
       Sep 23, 2016
    叫他们给你写接口
    wizardforcel
        13
    wizardforcel  
       Sep 24, 2016
    如果对方有 JSON 接口,我宁可花点时间反编译也不用 HTML 的。
    ooh
        14
    ooh  
       Sep 25, 2016 via Android
    要求改版必须经过你的签字同意才允许
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   762 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 55ms · UTC 21:17 · PVG 05:17 · LAX 14:17 · JFK 17:17
    ♥ Do have faith in what you're doing.