V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
intohole
V2EX  ›  Python

继续推荐自己的爬虫,我会一直不断更新这个工程;

  •  
  •   intohole · May 10, 2017 · 5520 views
    This topic created in 3274 days ago, the information mentioned may be changed or developed.
    上链接:
    https://github.com/intohole/xspider


    希望大家多关注,我会慢慢完善这个工程的,有需求可以给我提出 issue,谢谢大家
    21 replies    2017-05-11 10:09:33 +08:00
    guonning
        1
    guonning  
       May 10, 2017 via iPhone
    整个 Google play 的爬虫
    Morriaty
        2
    Morriaty  
       May 10, 2017   ❤️ 1
    如果你的项目有明显优于`scrapy`的地方,那请重点介绍这个优点;

    如果你只是想深入了解爬虫架构,那请配合分享你的开发博客,《深入理解爬虫架构》;

    否则,你的这个项目,除了自己练手,没有任何可分享的意义。
    yanzixuan
        3
    yanzixuan  
       May 10, 2017
    不是很推荐用 xpath 来提取信息,麻烦得很。用 beautifulsoup 或 pyquery 都好点。
    xvx
        4
    xvx  
       May 10, 2017 via iPhone
    难道 lz 这个还能智能爬不成?不用每个网站都搞个爬虫规则。
    intohole
        5
    intohole  
    OP
       May 10, 2017
    @xvx 可以看我另外个工程 sixgod 也在这个 github, 里面可以自动提取正文;如果有提取其它元素的话,可以提 issue
    intohole
        6
    intohole  
    OP
       May 10, 2017
    @yanzixuan 这里面支持 beautifulsoup ; 我只是没写文档
    intohole
        7
    intohole  
    OP
       May 10, 2017
    @Morriaty 谢谢意见,这个是我在做一个信息爬取工程,里面正在改进;文档 我会慢慢丰富起来
    intohole
        8
    intohole  
    OP
       May 10, 2017
    @guonning 谷歌市场?可以用这个里面写的,只需要你会写 xpath css selector 就可以了
    intohole
        9
    intohole  
    OP
       May 10, 2017
    @yanzixuan 后续我会加入 pyquery 的 ,谢谢你这个建议
    3b295
        10
    3b295  
       May 10, 2017
    @yanzixuan 我倒是觉得有时用 xpath 也很方便, 直接在浏览器中右键复制节点的 xpath, 在稍微改改就写出来了。
    IanPeverell
        11
    IanPeverell  
       May 10, 2017
    楼主加油,不过……

    感觉是在重复造轮子,因为功能不完善所以很轻,很多情况都没考虑到

    scrapy 和 pyspider 已经很出色,再加上很多分支,已经很完美了,requests 也足够满足轻型 spider 的需求,所以除非以学习为目的,这种重复造轮子很浪费时间
    intohole
        12
    intohole  
    OP
       May 10, 2017
    @IanPeverell 肯定有些不同的,比如我现在抓取的时候 面临资源不足的情况,有自己的解决方案 ;
    mikezhang0515
        13
    mikezhang0515  
       May 10, 2017
    MSpider 也很好
    IanPeverell
        14
    IanPeverell  
       May 10, 2017
    @intohole,然而资源不足只是 spider 很小的问题,更多的问题则在于反爬上,如果楼主能在这方面下功夫那这个框架的肯定不可小觑

    anyway,还是很支持楼主将一个框架由小做大的,希望楼主能坚持下去
    intohole
        15
    intohole  
    OP
       May 10, 2017
    @mikezhang0515 我会参考这个工程的 ,thx
    intohole
        16
    intohole  
    OP
       May 10, 2017
    @IanPeverell 谢谢,我会加油的
    faywong8888
        17
    faywong8888  
       May 10, 2017
    技术这个行业,过去一个话题的开始是写一个:hello, world。
    这个行业的现在变成了:从零写一个爬虫。
    intohole
        18
    intohole  
    OP
       May 10, 2017
    @faywong8888 什么项目不是从 0 开始的呢? 还有你觉得写爬虫架构很好写,写个队列,写个抓取器就完活了? 谢谢关注
    bytenoob
        19
    bytenoob  
       May 10, 2017 via Android
    加上一句,make the world a better place
    xvx
        20
    xvx  
       May 11, 2017 via iPhone
    @intohole sixgod 比较块密度进行爬取,这个思路以前看过,对结构简单的网站比较适用,复杂的还是很难搞吧。
    intohole
        21
    intohole  
    OP
       May 11, 2017
    @xvx 首先你的业务是什么? 每个人的业务都不一样,只能是大体通用 , 智能提取算法 , 你可以自己找找 paper
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5771 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 51ms · UTC 07:17 · PVG 15:17 · LAX 00:17 · JFK 03:17
    ♥ Do have faith in what you're doing.