V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
al0ne
V2EX  ›  Python

各位学 python 的登录网站遇到验证码怎么办

  •  
  •   al0ne ·
    al0ne · Sep 22, 2015 · 5851 views
    This topic created in 3876 days ago, the information mentioned may be changed or developed.
    最近刚刚入门爬虫。有的网站需要验证码。看到有的人说的是把验证码保存到本地手工输入。还有的用 pytesseract 这个库。各位有什么好办法吗
    17 replies    2015-10-02 03:27:00 +08:00
    virusdefender
        1
    virusdefender  
       Sep 22, 2015
    去搜一下 验证码打码平台
    gzq527
        2
    gzq527  
       Sep 22, 2015
    @virusdefender 没搜到呢
    honeycomb
        3
    honeycomb  
       Sep 22, 2015 via Android
    @gzq527 google?
    qwjhb
        4
    qwjhb  
       Sep 22, 2015
    半自动,手工输。
    al0ne
        5
    al0ne  
    OP
       Sep 22, 2015
    @virusdefender 哦哦 就是连接一些自动打码的平台对吧
    gzq527
        6
    gzq527  
       Sep 22, 2015
    @honeycomb 百度。。。我试试 google
    Yeoman
        7
    Yeoman  
       Sep 22, 2015 via Android
    研究一下 html js 什么的,验证码没准是明文有的么(没准还带 id 的)
    gzq527
        8
    gzq527  
       Sep 22, 2015
    @honeycomb 专业打码平台,好牛啊, 0 秒延迟,这么快?
    tdifg
        9
    tdifg  
       Sep 22, 2015
    @gzq527 要钱的,当然牛了…………其实也是人工的啊
    tinyproxy
        10
    tinyproxy  
       Sep 22, 2015
    1. 如果你是为了写爬虫,别浪费时间在这上面,我最懒的方法是手动登陆进去,然后从 chrome 把 cookie 粘贴出来。
    2. 完成目的后可以单独开一个坑做图像识别。
    BikeMan
        11
    BikeMan  
       Sep 22, 2015
    @tinyproxy 这个才是王道!
    ClutchBear
        12
    ClutchBear  
       Sep 24, 2015
    @tinyproxy 这个拷贝出来的 cookie 是放到头部 headers 里面还是放到 cookies 参数里面?
    requests.post(url, headers, cookies)为例的话,
    tinyproxy
        13
    tinyproxy  
       Sep 26, 2015 via iPhone   ❤️ 1
    @ClutchBear cookie 本来就在 header 里面,具体看 http 协议报文格式。至于你用的 requests 库,我印象中放 cookies 就行,放 header 也行,但两个同时设置我就没有试过。
    PS 这种问题你试一下比等我回复快多了吧。。。
    ClutchBear
        14
    ClutchBear  
       Sep 26, 2015
    @tinyproxy 主要是我模拟登陆的网站是 hoopchina,我放到 headers 里面会返回一个 json 数据,15 分钟内多次登录或者密码错误次数太多...
    Reed
        15
    Reed  
       Sep 28, 2015
    下载下来,手动敲丫的,这个坑太深,直接带你去机器学习,慎重。
    al0ne
        16
    al0ne  
    OP
       Oct 1, 2015
    @Reed 谢谢
    symons
        17
    symons  
       Oct 2, 2015
    我之前是手动登录,然后把 cookie 从浏览器复制出来
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2709 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 51ms · UTC 13:51 · PVG 21:51 · LAX 06:51 · JFK 09:51
    ♥ Do have faith in what you're doing.