V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
zzm88104
V2EX  ›  问与答

即使不断变换 ip,一定次数后还是被爬虫检测,应该从哪里排查?(pyppeteer)

  •  
  •   zzm88104 · 2021-10-18 12:42:56 +08:00 · 1464 次点击
    这是一个创建于 1117 天前的主题,其中的信息可能已经有所发展或是发生改变。

    用的是 pyppeteer 框架,测试的是美亚网站,每分钟访问一次,大概 1-5 分钟换一次 ip,20 分钟左右还是会出现验证码页面

    6 条回复    2021-10-18 16:44:15 +08:00
    miao666
        1
    miao666  
       2021-10-18 13:52:15 +08:00   ❤️ 1
    参考谷歌的机器人验证码
    网站会收集你在网站里的鼠标滑行轨迹,点击动作频率,键盘动作等信息
    从而判断你是否为机器人
    xiaoqiao24
        2
    xiaoqiao24  
       2021-10-18 14:35:34 +08:00   ❤️ 1
    1. ip 的问题,有可能是 ip 在目标服务器已有黑名单记录,导致不能长时间爬取。建议用多个代理商搭建代理池。
    2. 请求参数里面是否包含了有过期失效的参数,例如鼠标轨迹,点击检测等等数据。
    zzm88104
        3
    zzm88104  
    OP
       2021-10-18 14:38:35 +08:00
    @miao666 确实是完全没有模拟相关的操作,不过他最开始的几十次并不会触发机器人检测。不知道他是怎样把不同 ip 的请求关联起来的?
    zzm88104
        4
    zzm88104  
    OP
       2021-10-18 14:59:20 +08:00
    @xiaoqiao24 好的,我去检查下请求的参数
    qq316107934
        5
    qq316107934  
       2021-10-18 15:16:47 +08:00
    @zzm88104 每次请求前 cookies 是空的吗? local storage 一类的确定没被持久化下来数据吗?
    perpetually
        6
    perpetually  
       2021-10-18 16:44:15 +08:00
    cookie,指纹信息,data 参数,这些都会变化
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2823 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 13:39 · PVG 21:39 · LAX 05:39 · JFK 08:39
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.