• 请不要在回答技术问题时复制粘贴 AI 生成的内容
lieyan
V2EX  ›  程序员

关于分布式爬虫的问题

  •  
  •   lieyan · Dec 25, 2020 · 1909 views
    This topic created in 2010 days ago, the information mentioned may be changed or developed.

    请教一下,目前有没有那种开源的或者付费的分布式爬虫系统?可以进行深度爬取整个网站的那种?

    优先考虑开源的,自己撸了一个,效率不大行。。。

    10 replies    2020-12-26 08:31:02 +08:00
    jr55475f112iz2tu
        1
    jr55475f112iz2tu  
       Dec 25, 2020
    深度爬取整个网站,这是想干嘛
    付费的肯定有,八爪鱼之类的
    不过你这想要深度爬取,可行性不是问题,风险才是问题
    lieyan
        2
    lieyan  
    OP
       Dec 25, 2020
    @czfy 我这里风险不是问题,可行性差了点。。。我们做的都是合法的,爬取之前会得到用户的授权 。
    lieyan
        3
    lieyan  
    OP
       Dec 25, 2020
    @czfy 八爪鱼不符合我们的业务,我们不做页面数据分析。。只需要爬取出来就 ok
    manzhiyong
        4
    manzhiyong  
       Dec 25, 2020
    抓起来的都是获得过授权的
    randomuuid
        5
    randomuuid  
       Dec 25, 2020
    我们自己开发
    lieyan
        6
    lieyan  
    OP
       Dec 25, 2020
    @manzhiyong 这个。。。。不过我们业务特殊,没这个风险
    lieyan
        7
    lieyan  
    OP
       Dec 25, 2020
    @RudyS 有啥建议吗?包括突破反爬技术这个你们是怎么弄的?
    snappyone
        8
    snappyone  
       Dec 25, 2020
    @lieyan 你都合法了,还搞啥反爬?
    Lemeng
        9
    Lemeng  
       Dec 25, 2020
    爬整个站啊,好吧
    sjmcefc2
        10
    sjmcefc2  
       Dec 26, 2020
    teleport
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1067 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 37ms · UTC 23:48 · PVG 07:48 · LAX 16:48 · JFK 19:48
    ♥ Do have faith in what you're doing.