V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
qq5745965425
V2EX  ›  问与答

scrapy 的 start_urls 为多个的时候,它工作的时候,就会开启多个线程吗

  •  
  •   qq5745965425 · 2016-03-14 01:19:07 +08:00 · 2459 次点击
    这是一个创建于 3168 天前的主题,其中的信息可能已经有所发展或是发生改变。

    爬虫根据 start_urls 去爬页面,然后对返回的结果处理,如果有 10 个 start_urls ,他是 10 个网址同时去访问,获得结果,然后 10 个同时处理吗, 10 个线程再各自处理自己的结果里的信息吗

    感觉如果是一个线程的话,那难道是一个一个的访问,然后等完全处理掉了其中一个 start_urls 以及其后续结果里的内容,才会去处理第二个 start_urls 吗

    junnplus
        1
    junnplus  
       2016-03-14 10:12:11 +08:00 via Android   ❤️ 1
    可以看下源碼,我記得是 yield
    qq5745965425
        2
    qq5745965425  
    OP
       2016-03-14 10:22:13 +08:00
    @junnplus 谢谢,确实有个 yield ,但是我不知道他的原理, 是不是这个 yield 可以把对应数据推送到某个队列,然后 会有专门的一个 worker 来消费这个队列呢, 而 yield 负责把对应内容装入队列 ,请问是这样吗
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4773 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 03:58 · PVG 11:58 · LAX 19:58 · JFK 22:58
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.