这年头写个漫画爬虫都心力憔悴。

This topic created in 1808 days ago, the information mentioned may be changed or developed.

写了个自用小爬虫，追漫画用，每天刷一次，稳定运行了几个月。

然而，漫画网站是在 cloudflare 上，突然之间就被识别为 BOT，拒绝访问了。可让我非常意外的是，同样的 IP，浏览器访问一点问题都没有！

在 V2 查了前人资料，说是 TLS 指纹技术。顺藤摸瓜，发现了每个客户端都有指纹，难怪相同的 UA/Cookie，curl 不行，浏览器却可以，因为两者的 SSL 指纹是不一样的。( https://browserleaks.com/ssl 里的 JA3 Hash)

于是乎，剩下了二个解决方案：

修改爬虫客户端，模仿浏览器的行为。但问题是，cloudflare 的 tls 指纹算法并没有公开，网上也搜不到相关信息，应该不可能用 JA3 这种开源解决方案。靠猜测编程，是非常不靠谱的行为，遂放弃。
把 google chrome 当成代理服务器，运行一个网页，用 websocket 和爬虫通讯，然后用 ajax 去访问目标站点。

用 AJAX 暂时解决了问题，也不知道几个月后，会不会出现新问题。怀念以前 http 不加密一把梭的年代，什么都是明文，简单明了直接。

指纹

TLS

Cloudflare

ajax

35 replies • 2021-08-03 17:58:23 +08:00

whileFalse

Aug 1, 2021 via iPhone

所以网站凭什么白给你爬？

junksheng

Aug 1, 2021 via Android

你想白女票，自然要做好斗智斗勇的准备

hideokuze

Aug 1, 2021

这些事情属于“偷偷的进村，打枪的不要”，就是占网站便宜。要是真闹腾起来了怕不是连这个渠道都给你堵上了。

dingwen07

Aug 1, 2021 via Android

试试看 headless ？不过多半也不行

3dwelcome

Aug 1, 2021

@dingwen07 也许 headless 可以吧，毕竟是同一个浏览器内核。

但我没用过，不知道怎么用 headless 来点图形验证码或者滑动码。

被 cloudflare 打分识别为 BOT 后，一直返回 403，访问就跳 recaptcha 界面，就是不知道怎么互动。

3dwelcome

Aug 1, 2021

@whileFalse "所以网站凭什么白给你爬？"

网站又没说什么，个人爬虫每天访问量，不会超过 20 个页面，也就是爬点主流的海贼王，一拳超人之类的更新页面。

主人没说啥，是 cloudflare 这个管家，私下把我给拒之门外。

crab

Aug 1, 2021

找出源站 IP 绕过 cloudflare

o00o

Aug 1, 2021

@3dwelcome 爬就别想着能一劳永逸，这是一场攻防战，战争白热化之后别说不能爬，连普通用户都会受影响。
参见淘宝（普通用户多刷几次网页都会出验证码）、
闲鱼（砍掉网页版）、
微信（网页版新用户不能使用、强制升级）、
QQ （强制升级、网页版无法使用）

AoEiuV020

Aug 1, 2021 via Android

哪个网站反爬这么狠？
不如试试爬国内的，那种随处可见的盗版网站基本都是随便请求的，

3dwelcome

Aug 1, 2021

@crab “找出源站 IP 绕过 cloudflare”
试了一下你的方法，好像不行。

原理就是扫描互联网上所有 IPV4 段，主动记录和 IP 对应 443 接口的 SSL CERT 证书信息，然后看有没有源站的域名在里面。如果有，加上 HOST 大概率就能访问，绕过 cloudflare cdn 。

工具的话，网上推荐了用 https://censys.io ，来遍历所有的证书和对应的 IPv4，但很可惜，查不出来。

crab

Aug 1, 2021

@3dwelcome 哪个漫画站啊？理论上用 chrome 当代理最后也是会遇到因为请求次数多被识别 BOT 。

3dwelcome

Aug 1, 2021

@crab “哪个漫画站啊”
https://www.onemanhua.com/ 我是看他更新速度挺快的，基本上全网数一数二。

"理论上用 chrome 当代理最后也是会遇到因为请求次数多被识别 BOT "
应该是这样的，只能尽可能降低请求频率。好在 chrome 就算被识别成 bot, 还能输入验证码，不至于被永远卡死在 403 （手动狗头）