V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
heyhumor
V2EX  ›  Python

爬虫使用高匿代理会被服务器检测到本机吗?

  •  
  •   heyhumor · 2019-11-24 20:14:34 +08:00 · 5912 次点击
    这是一个创建于 1825 天前的主题,其中的信息可能已经有所发展或是发生改变。

    用 python3 的 requests 库写的爬虫,今天试了好多家代理 IP,没有爬几次就被拒绝访问。

    UA 是动态的,cookie 是 session 获取的,IP 也是高匿的,究竟是怎么被检测出来的呢?百思不得其解

    22 条回复    2020-05-15 08:10:38 +08:00
    66CCFF
        1
    66CCFF  
       2019-11-24 20:39:52 +08:00
    前端搞个 js 很容易检测你这种呀。
    yankebupt
        2
    yankebupt  
       2019-11-24 22:24:39 +08:00
    你先找几台高匿 VNC 上去手动爬下试试……
    有的行为检测连手动爬都过不了,更别提 python 了......
    话说某剁手站我正常使用时都有 5%以上的验证码弹出率,不知是不是我长得很像爬虫……
    nnnToTnnn
        3
    nnnToTnnn  
       2019-11-25 09:18:51 +08:00
    很简单,行为分析啊。 鼠标移动的轨迹,还有敏感的 IP 地址等等一些参数。

    详细项目请参考 Google 的 “我不是机器人”
    Lunatic1
        4
    Lunatic1  
       2019-11-25 10:06:22 +08:00
    如果被封说明 IP 的高匿还是失败的,假设开代理被检测也只是会封当前代理吧?可以先测试一下
    hardcattle
        5
    hardcattle  
       2019-11-25 10:09:09 +08:00
    亲,pyppeteer 了解一下,还有什么不能爬的网点。
    lcy630409
        6
    lcy630409  
       2019-11-25 13:12:15 +08:00
    不要用代理 本机直接爬,速度慢点
    代理都是服务器的 ip 都是机房的,不说别的 判断你访问的 ip 是机房 ip 就要弹验证码了
    letitbesqzr
        7
    letitbesqzr  
       2019-11-25 17:17:45 +08:00
    先不说根据你的行为来判定的是否爬虫,就拿你代理 ip 来说,现在做风控的,都会把 ip 因素考虑进去,比如 ip 是否来自于机房 是否来自于 adsl 等等一系列,他们的大数据远比我们想到的丰富。
    heyhumor
        8
    heyhumor  
    OP
       2019-11-26 08:23:34 +08:00
    @66CCFF 我的请求可以返回正常数据的,而且每次请求都更换 IP,存在 js 检测吗
    heyhumor
        9
    heyhumor  
    OP
       2019-11-26 08:26:07 +08:00
    @Lunatic1 代理 IP 是动态更换的
    heyhumor
        10
    heyhumor  
    OP
       2019-11-26 08:26:39 +08:00
    @hardcattle pyppeteer 好像已经不维护了,问题很多吧
    heyhumor
        11
    heyhumor  
    OP
       2019-11-26 08:27:10 +08:00
    @nnnToTnnn 还有这种骚操作吗
    heyhumor
        12
    heyhumor  
    OP
       2019-11-26 08:28:37 +08:00
    @lcy630409 数据量挺大的,说实话
    heyhumor
        13
    heyhumor  
    OP
       2019-11-26 08:29:26 +08:00
    @lcy630409 我的倒不是验证码,正常返回几次之后直接 403 拒绝访问
    superrichman
        14
    superrichman  
       2019-11-26 08:59:57 +08:00 via iPhone
    估计是你的 header 没处理好吧
    wildplant
        15
    wildplant  
       2019-11-26 09:03:06 +08:00
    @heyhumor 那试一下 puppeteer 吧。反正写爬虫不也得会点 js 嘛。
    heyhumor
        16
    heyhumor  
    OP
       2019-11-26 09:53:10 +08:00
    @superrichman header 没处理好的话应该都不会返回数据吧,可是我返回了几次正确数据后才 403 的
    heyhumor
        17
    heyhumor  
    OP
       2019-11-26 09:53:27 +08:00
    @wildplant 好的,我试试
    676529483
        18
    676529483  
       2019-11-26 10:11:04 +08:00
    爬的是要登陆网站吗?如果是要登陆的,你 cookie 用的同一账号的,怎么代理也没用啊
    scukmh
        19
    scukmh  
       2019-11-26 10:24:28 +08:00 via iPhone
    代理怎么加的代码有吗? requests 的代理有点小坑的。
    QUIOA
        20
    QUIOA  
       2019-11-30 12:36:20 +08:00 via Android
    如果是国外网站你可以去买那些住宅代理 IP
    laball
        21
    laball  
       2020-05-15 00:45:18 +08:00
    @hardcattle 想请教,如何解决 IP 被封的问题。
    heyhumor
        22
    heyhumor  
    OP
       2020-05-15 08:10:38 +08:00
    @laball IP 被封就只能换 IP 了,买代理 IP,套上就行了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2700 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 15:06 · PVG 23:06 · LAX 07:06 · JFK 10:06
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.