推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
lixuda
V2EX  ›  Python

Python 爬虫被屏蔽有好的办法吗?

  •  
  •   lixuda · Apr 18, 2018 · 7472 views
    This topic created in 2972 days ago, the information mentioned may be changed or developed.

    除了用 selenium 模拟外,其他还有好的办法吗?

    Supplement 1  ·  Apr 18, 2018
    补充:requests get 几次就返回不到正确 html,随机 user-agent,要么填验证码,要么提示我是爬虫。用浏览器访问,一直都可以。没有封 ip。selenium 也要加载久一点。
    34 replies    2018-04-23 14:52:46 +08:00
    sunwei0325
        1
    sunwei0325  
       Apr 18, 2018
    selenium 一般用来爬一些 js 搞上去的内容, 而不是解决爬虫被屏蔽的, 解决被屏蔽的方法一般是代理 ip 池, cookie 池, 随机 user-agent 等
    lixuda
        2
    lixuda  
    OP
       Apr 18, 2018
    @sunwei0325 ip 没有封,user-agent 随机无效,只能打开浏览器访问就可以。
    leir
        3
    leir  
       Apr 18, 2018 via iPhone
    什么网站?
    lixuda
        4
    lixuda  
    OP
       Apr 18, 2018
    est
        5
    est  
       Apr 18, 2018
    技术不过关啊。。。。
    lixuda
        6
    lixuda  
    OP
       Apr 18, 2018
    @est 是的
    huweic
        7
    huweic  
       Apr 18, 2018 via Android
    该有的 Header 都加上
    kimchan
        8
    kimchan  
       Apr 18, 2018
    mark, 之前也是遇过一个网站, 用爬虫各种伪装了都不行, 用浏览器访问却可以. 最后也是只能用 selenium😂😂. 看看大神们有什么更好的方法
    lixuda
        9
    lixuda  
    OP
       Apr 18, 2018
    @huweic 应该不是,selenium 我也要加载很久才可以获得。提早获得也是提升爬虫页面。
    magicO
        10
    magicO  
       Apr 18, 2018 via Android
    抓包看看浏览器访问时的包
    alen
        11
    alen  
       Apr 18, 2018
    限速控制并发
    takato
        12
    takato  
       Apr 18, 2018
    把并发间隔整形成高斯分布试试。
    wqzjk393
        13
    wqzjk393  
       Apr 18, 2018 via iPhone
    顺便问一下,像斗鱼这种第一次爬就直接屏蔽掉,返回 404 的,该怎么处理?
    lixuda
        14
    lixuda  
    OP
       Apr 18, 2018
    @alen 没有并发,就访问了 2-3 次就这样。并且间隔很久
    em70
        15
    em70  
       Apr 18, 2018
    说明伪装得不像,一般防盗链就 user-agent 和 referer 两个参数来判断,这两个都不填,傻子都知道你是机器人
    lixuda
        16
    lixuda  
    OP
       Apr 18, 2018
    @em70 我都说了,无用。selenium 我也要加载很久才可以获得真实页面
    wplct
        17
    wplct  
       Apr 18, 2018
    并不是学艺不精,看来一下这个网址的反爬确实很严格
    wplct
        18
    wplct  
       Apr 18, 2018
    各种加载 js 运行,懒得搞的话还是调用浏览器吧
    wplct
        19
    wplct  
       Apr 18, 2018
    如果是要请求较多的数据的话,记得保存 cookies 会比较好一些
    vtwoextb
        20
    vtwoextb  
       Apr 18, 2018
    重启路由器 更换家里的动态 ip https://github.com/hizdm/dynamic_ip
    JackYao
        21
    JackYao  
       Apr 18, 2018
    估计 js 检测吧, 能执行才是浏览器。
    summerwar
        22
    summerwar  
       Apr 18, 2018
    贴地址 不然靠猜吗
    craftx
        23
    craftx  
       Apr 18, 2018
    请先说明是哪种方式的屏蔽
    jamesfuxk
        24
    jamesfuxk  
       Apr 18, 2018
    用抓包软件,设置好 header 啊。可以减少被封的概率的
    cuberlzy
        25
    cuberlzy  
       Apr 18, 2018   ❤️ 2
    Chrome F12 找到接口 右键复制到 curl

    然后贴到这里 https://curl.trillworks.com/ 把生成的代码运行一遍

    看看行不行先~我猜多半是 Cookie 的问题
    cuberlzy
        26
    cuberlzy  
       Apr 18, 2018
    浏览器也想被提示爬虫可以试试把 Cookie 清掉 这样多半就会提示你输验证码啦
    Telegram
        27
    Telegram  
       Apr 18, 2018 via iPhone
    @kimchan #8 这个只能对症下药。
    Leigg
        28
    Leigg  
       Apr 18, 2018
    UA 是比较基本的反爬,最好清除浏览器 cookie,打开 F12-network,再打开网站,这个时候分析一下请求的 method、header 一般就能找到关键所在
    Leigg
        29
    Leigg  
       Apr 18, 2018
    你是要抓这个 URL 中的什么信息,中间的正文应该是可以直接获取的
    golmic
        30
    golmic  
       Apr 18, 2018 via Android
    浏览器可以,requests 就一定可以。愿意付费可以联系我,微信公众号 pydatame 有联系方式
    qqpkat2
        31
    qqpkat2  
       Apr 19, 2018
    js 加密检测,了解一下
    jimmyczm
        32
    jimmyczm  
       Apr 19, 2018
    抓包时发现应该是这个 pwhqfbsrcqtcbabfzrvevcde.js 文件作怪,在这个文件后面浏览器和 selenium 的内容变了
    soho176
        33
    soho176  
       Apr 23, 2018
    用火车头试试看!
    leir
        34
    leir  
       Apr 23, 2018 via iPhone
    @lixuda 搞定了么?简单得话,火车头就可以了,要想分析的话可以看看楼 js,没有混淆,能够明显看到检查
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2891 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 104ms · UTC 05:29 · PVG 13:29 · LAX 22:29 · JFK 01:29
    ♥ Do have faith in what you're doing.