用 python3 的 requests 库写的爬虫,今天试了好多家代理 IP,没有爬几次就被拒绝访问。
UA 是动态的,cookie 是 session 获取的,IP 也是高匿的,究竟是怎么被检测出来的呢?百思不得其解
1
66CCFF 2019-11-24 20:39:52 +08:00
前端搞个 js 很容易检测你这种呀。
|
2
yankebupt 2019-11-24 22:24:39 +08:00
你先找几台高匿 VNC 上去手动爬下试试……
有的行为检测连手动爬都过不了,更别提 python 了...... 话说某剁手站我正常使用时都有 5%以上的验证码弹出率,不知是不是我长得很像爬虫…… |
3
nnnToTnnn 2019-11-25 09:18:51 +08:00
很简单,行为分析啊。 鼠标移动的轨迹,还有敏感的 IP 地址等等一些参数。
详细项目请参考 Google 的 “我不是机器人” |
4
Lunatic1 2019-11-25 10:06:22 +08:00
如果被封说明 IP 的高匿还是失败的,假设开代理被检测也只是会封当前代理吧?可以先测试一下
|
5
hardcattle 2019-11-25 10:09:09 +08:00
亲,pyppeteer 了解一下,还有什么不能爬的网点。
|
6
lcy630409 2019-11-25 13:12:15 +08:00
不要用代理 本机直接爬,速度慢点
代理都是服务器的 ip 都是机房的,不说别的 判断你访问的 ip 是机房 ip 就要弹验证码了 |
7
letitbesqzr 2019-11-25 17:17:45 +08:00
先不说根据你的行为来判定的是否爬虫,就拿你代理 ip 来说,现在做风控的,都会把 ip 因素考虑进去,比如 ip 是否来自于机房 是否来自于 adsl 等等一系列,他们的大数据远比我们想到的丰富。
|
10
heyhumor OP @hardcattle pyppeteer 好像已经不维护了,问题很多吧
|
14
superrichman 2019-11-26 08:59:57 +08:00 via iPhone
估计是你的 header 没处理好吧
|
16
heyhumor OP @superrichman header 没处理好的话应该都不会返回数据吧,可是我返回了几次正确数据后才 403 的
|
18
676529483 2019-11-26 10:11:04 +08:00
爬的是要登陆网站吗?如果是要登陆的,你 cookie 用的同一账号的,怎么代理也没用啊
|
19
scukmh 2019-11-26 10:24:28 +08:00 via iPhone
代理怎么加的代码有吗? requests 的代理有点小坑的。
|
20
QUIOA 2019-11-30 12:36:20 +08:00 via Android
如果是国外网站你可以去买那些住宅代理 IP
|
21
laball 2020-05-15 00:45:18 +08:00
@hardcattle 想请教,如何解决 IP 被封的问题。
|