V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
aaronhua
V2EX  ›  Python

scrapydweb 和 spiderkeeper 有什么区别?

  •  
  •   aaronhua · 2019-08-22 15:29:22 +08:00 · 3399 次点击
    这是一个创建于 1920 天前的主题,其中的信息可能已经有所发展或是发生改变。

    要做一个 scrapy 的集群管理平台,看了 Github 的项目。

    scrapydweb 比较活跃,新一点。

    spiderkeeper 已经一两年没有更新了,star 比较多。

    scrapydweb 和 spiderkeeper 有什么区别?

    有用过的 v 友说一下。

    12 条回复    2019-08-29 09:07:48 +08:00
    zqjilove
        1
    zqjilove  
       2019-08-22 16:33:00 +08:00
    scrapydweb 功能完善,目前首选,spiderkeeper 没用过,大致对比过
    lshu
        2
    lshu  
       2019-08-22 16:36:22 +08:00
    说白了 一个新小区,一个老小区。都是基于 scrapyd 的封装。
    locoz
        3
    locoz  
       2019-08-22 16:43:49 +08:00
    我赌五毛,不超过半天时间 tikazyq 老哥就会来给你推荐 crawlab
    aaronhua
        4
    aaronhua  
    OP
       2019-08-22 16:54:57 +08:00
    @lshu 买新不买旧么?
    @zqjilove 活跃点的项目靠谱点
    @locoz 杀你,赌 10 个铜币
    tikazyq
        5
    tikazyq  
       2019-08-22 17:05:06 +08:00   ❤️ 1
    @locoz 不会来硬推了,大家都看烦了。。。来推一下几个平台的对比吧。

    https://juejin.im/post/5d5298f05188255f7c1c4979

    "总的来说,SpiderKeeper 可能是最早的爬虫管理平台,但功能相对来说比较局限; Gerapy 虽然功能齐全,界面精美,但有不少 bug 需要处理,建议有需求的用户等待 2.0 版本; Scrapydweb 是一个比较完善的爬虫管理平台,不过和前两者一样,都是基于 scrapyd 的,因此只能运行 scrapy 爬虫;而 Crawlab 是一个非常灵活的爬虫管理平台,可以运行 Python、Nodejs、Java、PHP、Go 写的爬虫,而且功能比较齐全,只是部署起来相对于前三者来说要麻烦一些..."
    locoz
        6
    locoz  
       2019-08-22 17:14:48 +08:00   ❤️ 1
    @aaronhua #4 你看,他来了吧。其实 Crawlab 挺好用的,可以试试。
    aaronhua
        7
    aaronhua  
    OP
       2019-08-22 17:17:19 +08:00
    @locoz 我服,哈哈。铜币给你
    lshu
        8
    lshu  
       2019-08-22 17:24:19 +08:00
    @aaronhua scrapydweb 感觉还行的,就是页面有点复杂。不过国人开发居然不给个页面语言切换。
    my8100
        9
    my8100  
       2019-08-22 23:50:03 +08:00 via iPhone   ❤️ 2
    1. 可靠性:持续集成,目前代码覆盖率 > 89%。
    2. 实用性:集成 LogParser,爬虫进度可视化,基于 Scrapy 日志分析的监控和警报。
    3. 可扩展性:在爬虫集群的任意多个节点实现一键操作,包括部署,运行,停止和删除项目,汇总分布式爬虫的日志分析报告等。
    4. 权威性:Scrapyd 开发者成员之一,及时适配新版本新特性。

    在线体验就完事了: https://scrapydweb.herokuapp.com/
    aaronhua
        10
    aaronhua  
    OP
       2019-08-23 09:22:25 +08:00
    @my8100 又一个开源开发者出现啦,现在开源都这么拼的?
    my8100
        11
    my8100  
       2019-08-23 09:58:35 +08:00 via iPhone   ❤️ 1
    “请尽量让自己的回复能够对别人有帮助”
    15399905591
        12
    15399905591  
       2019-08-29 09:07:48 +08:00
    之前使用 spiderkeeper + scrapyd 进行部署,bug 真的是一大堆,都不知道从那里入手(很多 bug 并不是 spiderkeeper 的问题,而是使用 scrapyd 的原因),后来使用干脆使用 docker 打包解决了,不过调度得自己写。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2872 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 37ms · UTC 14:13 · PVG 22:13 · LAX 06:13 · JFK 09:13
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.