V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
coolair
V2EX  ›  问与答

请教一下 Python 爬虫问题

  •  
  •   coolair · Dec 14, 2018 · 1255 views
    This topic created in 2693 days ago, the information mentioned may be changed or developed.
    目前是先爬列表页,然后取出各个详情页的 id 放到一个 queue 中,另外开几个线程从 queue 中取 id 爬数据。
    但是,爬取详情数据的时候会出现失败,想把失败的 id 重新放入 queue 中,但是有一个线程往 queue 中放数据了,这个时候 queue 就一直是满的,导致爬详情数据的线程都挂起了。
    有什么好的解决办法吗?
    4 replies    2018-12-14 17:53:38 +08:00
    csx163
        1
    csx163  
       Dec 14, 2018
    加个 redis ?
    ClutchBear
        2
    ClutchBear  
       Dec 14, 2018
    详情页 url,
    存到 redis 或者 kafka
    sheep3
        3
    sheep3  
       Dec 14, 2018
    加快消费速度
    增大队列长度
    martinsu
        4
    martinsu  
       Dec 14, 2018 via iPhone
    队列优先级
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3778 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 37ms · UTC 10:31 · PVG 18:31 · LAX 03:31 · JFK 06:31
    ♥ Do have faith in what you're doing.