V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
luxid
V2EX  ›  Python

爬虫的代理 IP 本地可用,部署到服务器上不可用

  •  
  •   luxid · 2019-02-24 22:16:30 +08:00 · 1391 次点击
    这是一个创建于 2104 天前的主题,其中的信息可能已经有所发展或是发生改变。
    一个简单的爬虫,二三十分钟爬一次一个美国网站固定页面的一个数值,无需登录,网站最近才加上的反爬,限制了同一 IP 请求的次数
    代码里 header 信息齐全,网站必须美国 IP 请求,所以找了 100 个免费的美国高匿代理,user-agent 也搞了 10 多个,本地跑测试,IP 都可用,程序跑起来一切正常,跑 3 个小时一个 403 没有,但是部署到搬瓦工美国的服务器上,能有三分之一的代理 IP 请求报 403 Forbidden
    我把报错的 IP 都存下来,放到本地跑,全部都可用,都能爬到数,然后再弄到服务器上,就是 403,有哪位遇到过这种情况吗,求帮助
    python3.6 写的很直白简单的爬虫,搬瓦工洛杉矶的服务器
    hidder
        1
    hidder  
       2019-02-27 11:37:22 +08:00
    在 vps 上试下代理 ip 的连通性
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1175 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 19ms · UTC 18:46 · PVG 02:46 · LAX 10:46 · JFK 13:46
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.