V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
mywaiting
V2EX  ›  问与答

有没有能用或者说好用的 Chrome Spider?

  •  
  •   mywaiting · Jul 7, 2015 · 2468 views
    This topic created in 3955 days ago, the information mentioned may be changed or developed.
    相信Spider用来收集信息已经是常态了吧? @binux 的 pyspider 成了日常收集信息的利器,但是也有了很多的问题

    1、不断有各种JS、Cookie计算token来防止抓取,当然访问频次这个没有办法,只能不断地增加代理用的IP吧
    2、Chrome的App已经足够强大

    基于上述的两点,我想,是不是有一种基于Chrome的Spider,App形式,直接在Chrome里面搞定各种信息的抓取

    有这样的App么?如果没有,来挖个坑如何?
    6 replies    2015-07-08 16:12:27 +08:00
    nikola
        1
    nikola  
       Jul 7, 2015 via iPhone
    mark
    shierji
        2
    shierji  
       Jul 7, 2015 via Android
    你说的是selenium吧
    mywaiting
        3
    mywaiting  
    OP
       Jul 8, 2015
    @shierji 类似吧。selenium跟phantomJS这样的差不多吧,我想说的是,或者说我想象的是Chrome Spider,就是一个Chrome的App,然后这个App的界面类似于pyspider的Web界面那样的,左侧是网页浏览,右侧上方是抓取脚本编辑器(Javascript),右侧下方是抓取日志输出

    差不多就是chrome在右侧调用开发者工具的界面样子。
    binux
        4
    binux  
       Jul 8, 2015
    爬取量大于100万之后,实际上分析请求的代价就小于使用完全渲染的代价了。
    而且爬多了你就会发现,怎么抓这个问题,太容易解决了,根本没有必要付出那么大代价去开发什么 app
    mywaiting
        5
    mywaiting  
    OP
       Jul 8, 2015
    @binux 就是Cookie和Js的token计算防止抓取这方法处理起来略麻烦,觉得烦了就想着有没有chrome app这种完全渲染后抓取的实现

    还好抓取量不大,就是检测几百个相关的微信公众号吧。目前我是写了个简单的chrome app的backgraound任务定时调用要抓取的url,用jQuery来提取渲染好的页面的内容。这个方法除了服务器限制抓取频率外,定时弹个图片验证码什么的,没有任何方法能够抵挡这种抓取,因为这算是真实的用户请求流量,绝对真实的
    binux
        6
    binux  
       Jul 8, 2015
    @mywaiting 摸清楚就不麻烦。而且,爬取是要并行进行的,那么 cookie 怎么处理并发问题?最终的值以哪个为准?
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2815 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 35ms · UTC 13:56 · PVG 21:56 · LAX 06:56 · JFK 09:56
    ♥ Do have faith in what you're doing.