V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
firemiles
V2EX  ›  问与答

DHT 爬虫遇到奇怪问题

  •  
  •   firemiles · 2016-02-22 10:18:39 +08:00 · 357 次点击
    这是一个创建于 3195 天前的主题,其中的信息可能已经有所发展或是发生改变。

    想写一个基于 DHT 网络的磁力链接爬虫,参考网上的实现写了一个。刚开始运行的时候还行,可是最近几天遇到了怪事,每次启动爬虫都获取不到 peer 发出的 announce ,添加调试信息发现获取的 ip 数一直保持在 1261 个左右,不再改变。如果超过 1261 这个数值就很快到达 10000 ,然后能成功获取到 announce ,刚开始以为是局域网的原因,所以转到了阿里云上用独立 ip 测试,发现了是一样的结果,也只能获取 1261 个左右 ip ,各位对此有什么见解吗?

    另附上主要参考的 dht 爬虫代码:simDHT,各位也可是试下看是否遇到相同情况。

    2 条回复    2016-02-22 17:58:18 +08:00
    firemiles
        1
    firemiles  
    OP
       2016-02-22 10:44:33 +08:00
    测试发现每次 1261 个 ip 是一样的
    firemiles
        2
    firemiles  
    OP
       2016-02-22 17:58:18 +08:00
    我发现把 simDHT 里的 ip 队列容量从 200 改成 20000 有一定效果,可以增加打破 1261 这个上限的概率。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3057 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 00:37 · PVG 08:37 · LAX 16:37 · JFK 19:37
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.