diffworld
V2EX  ›  问与答

怎么判断爬虫已经将网站的数据完整的爬取下来了

  •  
  •   diffworld · Jun 20, 2018 · 3689 views
    This topic created in 2887 days ago, the information mentioned may be changed or developed.
    scrapy 新手,想到一个问题,比如京东有很多商品,不能确定它们的总数,所以即使爬回来很多数据,怎么判断是否已经把所有的商品都爬取到了

    如果不能判断,应该采取什么方法尽可能多的爬数据

    crawlspider 可以做整站爬取,但是是不是真的能够取尽所有的 url ?

    跪求大神解答
    5 replies    2018-06-21 13:48:42 +08:00
    nine99
        1
    nine99  
       Jun 20, 2018
    没有通用的方法,得看你爬的思路
    tozp
        2
    tozp  
       Jun 20, 2018
    只要思路是正确的,爬虫 finish 的时候就爬完了。
    rootx
        3
    rootx  
       Jun 20, 2018 via iPhone
    自己想
    shangfabao
        4
    shangfabao  
       Jun 20, 2018
    自己判断
    icy37785
        5
    icy37785  
       Jun 21, 2018 via iPhone
    木有通用方法
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   910 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 40ms · UTC 22:27 · PVG 06:27 · LAX 15:27 · JFK 18:27
    ♥ Do have faith in what you're doing.