V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
tikazyq
V2EX  ›  Python

爬虫平台 Crawlab v0.2 发布

  •  
  •   tikazyq ·
    tikazyq · 2019-05-10 22:04:14 +08:00 · 1521 次点击
    这是一个创建于 2014 天前的主题,其中的信息可能已经有所发展或是发生改变。

    Crawlab 是一个专注于爬虫的集成了爬虫管理、任务调度、任务监控、数据分析等模块的分布式爬虫管理平台,非常适合对爬虫管理、爬虫工程化有要求的开发者及企业。对 Crawlab 还不了解的童鞋,请移步之前的文章:

    Crawlab 的任务调度核心模块是基于 Celery 的,因此天然支持分布式爬虫、多节点抓取。Crawlab 虽然是用 python 写的,但爬虫不局限于 python 爬虫,理论上可兼容任何语言以及任何框架。从目前开源的框架来看,大部分爬虫平台是以 scrapyd 为核心,因此只能支持 scrapy 框架的爬虫,而 Crawlab 不仅支持 scrapy,还支持其他框架的爬虫。

    更新一览

    v0.2 已完成

    • [x] 基础统计
    • [x] 数据分析(爬虫)
    • [x] 网站信息
    • [x] 定时任务
    • [x] 修复 bug

    待开发

    • [ ] 用户管理
    • [ ] 上传爬虫
    • [ ] 导出数据
    • [ ] 高级数据分析(网站、任务)
    • [ ] 更多爬虫例子
    • [ ] 文件管理

    截屏

    基础统计(爬虫)

    基础统计(任务)

    定时任务

    网站信息

    Github: tikazyq/crawlab

    如果感觉 Crawlab 还不错的话,请加作者微信拉入开发交流群,大家一起交流关于 Crawlab 的使用和开发。

    目前尚无回复
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4725 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 04:03 · PVG 12:03 · LAX 20:03 · JFK 23:03
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.