V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
briefcopy
V2EX  ›  编程

开发网络爬虫应该怎样选择爬虫框架?

  •  
  •   briefcopy · 2014-12-24 15:43:23 +08:00 · 4259 次点击
    这是一个创建于 3623 天前的主题,其中的信息可能已经有所发展或是发生改变。

    看很多开发爬虫的都在纠结怎么选择爬虫框架,弄了个博文,就当在扯淡了。
    http://blog.csdn.net/ajaxhu/article/details/42122461

    2 条回复    2018-03-26 15:23:40 +08:00
    foresightyj
        1
    foresightyj  
       2015-10-16 11:42:42 +08:00
    写得不错。是原创?

    我最了解的是 scrapy ,但是在 windows 下面使用遇到了不少坑(主要是改成使用 FIFODiskQueue 之后,也就是使用持久化的 BFS 而非默认的内存 DFS )。前几天学习了一下 nutch ,只是试了一下命令行,还没有深入到二次开发。
    cangbaotu
        2
    cangbaotu  
       2018-03-26 15:23:40 +08:00
    推荐你试试神箭手云爬虫( http://www.shenjian.io/) 最近很火的一个爬虫开发平台 在线用脚本开发爬虫
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2729 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 11:26 · PVG 19:26 · LAX 03:26 · JFK 06:26
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.