V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
xanthu
V2EX  ›  问与答

如果爬取的网站源有几百多个,如何用 Python 建立爬虫?

  •  
  •   xanthu · 2018-07-10 15:22:44 +08:00 · 1676 次点击
    这是一个创建于 2352 天前的主题,其中的信息可能已经有所发展或是发生改变。
    需求有几百多个站点要爬,不可能每个站点都用 Scrapy 写一个爬虫吧?

    有没有什么有效的解决方案?
    gitopen
        1
    gitopen  
       2018-07-10 17:02:43 +08:00 via Android
    scrapy 可以写多个爬虫,自定义命令后可启动多个爬虫进行爬取。。。。
    xanthu
        2
    xanthu  
    OP
       2018-07-10 17:42:18 +08:00
    @gitopen ....有 700 多个站,每个站都不同
    yrj
        3
    yrj  
       2018-07-10 18:14:45 +08:00 via iPad
    我想楼主是需要一个可以泛解析出内容页文章主体内容的库,我记得 python 有几个这样的库,但貌似准确率都不太高,我也一直在纠结这个问题。
    cyspy
        4
    cyspy  
       2018-07-10 23:15:23 +08:00 via Android
    pocket 或者 instapaper 能不能做中转?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3513 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 04:40 · PVG 12:40 · LAX 20:40 · JFK 23:40
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.