V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
nujabse
V2EX  ›  Node.js

网站是如何识别像 Puppeteer 这样采用 chrome headless 模式的 node js 爬虫的?

  •  
  •   nujabse · Apr 19, 2018 · 6424 views
    This topic created in 2932 days ago, the information mentioned may be changed or developed.

    最近想用 Puppeteer 爬取 这个网站 的数据,发现爬取几个数据之后就很快被识别为机器人,弹出 recaptcha 的验证,已设置 UA 和 Cookie,模拟浏览器人工操作还是被封禁。这个网站是如何识别检测 puppeteer 爬虫的?

    5 replies    2018-04-20 13:58:32 +08:00
    gzlock
        1
    gzlock  
       Apr 19, 2018
    瓶颈在 ip,上代理池
    miyuki
        2
    miyuki  
       Apr 19, 2018
    可能是 IP 频率?
    soli
        3
    soli  
       Apr 20, 2018
    道高一尺,魔高一丈。

    复杂一点的,可以分析用户鼠标、键盘等动作。
    yamedie
        4
    yamedie  
       Apr 20, 2018 via Android
    操作频率太快了,设置点间隔
    Sparetire
        5
    Sparetire  
       Apr 20, 2018
    蛮多的, 具体可以参考这两个
    https://juejin.im/post/5a22af716fb9a045132a825c
    https://cnodejs.org/topic/59c3352ee7d9a031127eadac
    不过有些可能过时了
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3476 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 52ms · UTC 04:22 · PVG 12:22 · LAX 21:22 · JFK 00:22
    ♥ Do have faith in what you're doing.