V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
diffworld
V2EX  ›  问与答

怎么判断爬虫已经将网站的数据完整的爬取下来了

  •  
  •   diffworld · 2018-06-20 11:41:28 +08:00 · 3036 次点击
    这是一个创建于 2349 天前的主题,其中的信息可能已经有所发展或是发生改变。
    scrapy 新手,想到一个问题,比如京东有很多商品,不能确定它们的总数,所以即使爬回来很多数据,怎么判断是否已经把所有的商品都爬取到了

    如果不能判断,应该采取什么方法尽可能多的爬数据

    crawlspider 可以做整站爬取,但是是不是真的能够取尽所有的 url ?

    跪求大神解答
    5 条回复    2018-06-21 13:48:42 +08:00
    nine99
        1
    nine99  
       2018-06-20 12:09:23 +08:00
    没有通用的方法,得看你爬的思路
    tozp
        2
    tozp  
       2018-06-20 15:27:06 +08:00
    只要思路是正确的,爬虫 finish 的时候就爬完了。
    rootx
        3
    rootx  
       2018-06-20 15:39:02 +08:00 via iPhone
    自己想
    shangfabao
        4
    shangfabao  
       2018-06-20 17:49:56 +08:00
    自己判断
    icy37785
        5
    icy37785  
       2018-06-21 13:48:42 +08:00 via iPhone
    木有通用方法
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1648 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 16:38 · PVG 00:38 · LAX 08:38 · JFK 11:38
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.