关于使用非对称计算进行反爬虫的思路

这是一个专门讨论 idea 的地方。

每个人的时间，资源是有限的，有的时候你或许能够想到很多 idea，但是由于现实的限制，却并不是所有的 idea 都能够成为现实。

那这个时候，不妨可以把那些 idea 分享出来，启发别人。

This topic created in 1604 days ago, the information mentioned may be changed or developed.

目前工作暂时不需要处理反爬虫需求，以前曾经有过，估计以后也会有，反爬是互联网一个永久的话题，以下纯属白日瞎想，与 v 友讨论一下：

昨天想到关于 cloudflare 的五秒盾，印象里听别人说过他是通过一个复杂计算，让前端证明确实跑了这么多计算，所以理论上没有任何人可以绕过这部分工作。如果我们平常也在自己的应用里植入一个类似的，但除了初次打开页面需要等待以外，其他的时候可以让网页在用户浏览网页时后台计算，这样正常用户使用的话，人类很少有打开一个页面只看五秒的情况，五秒过后浏览器已经准备好了结果可以直接打开下一个页面，可以做到用户端无感知。对于爬虫来说则可以限制其爬虫效率不得超过其计算效率的最大值，应该对于灰产来说还是一件稍麻烦的事情，对于数据频繁更新的应用限制效率后爬虫获取数据的价值也会降低很多。

理论上进行的计算最好是非对称式的，比如前端要算个几秒钟，但后端验算只需要一瞬间的那种，后端无需支付代价即可限制爬虫的效率。关于计算内容可以即时从后端申请，防止用户端预计算。这种改装应该对于后端来说很轻松。但关于计算内容以我粗浅的数学知识实在是想不到什么好主意，理论上这个东西要难于计算，但易于验算，最好还可以方便地调整问题复杂度。。。百度搜了搜非对称计算，结果搜到的无一例外全是 RSA 相关的内容，但 RSA 使用的算法我想了想似乎对于本命题并无太大借鉴意义。其他能想到的比较难算但易于验算的任务，比如找大质数之类的，问题在于虽然大质数找起来很费劲，但验算起来开销同样很高。。而且不是很方便控制计算复杂度，比如网站有时候需要 5 秒计算，被攻击时可能需要 10 秒，其他时候可能需要 2 秒，这就很难调整了。。

v 友们又和想法？

计算

rsa

对称

效率

17 replies • 2022-03-08 23:33:38 +08:00

murmur

Mar 8, 2022

爬虫本来就可以做 headless 啊，没有界面的浏览器

t123yh

Mar 8, 2022 via Android

这个用哈希就行了，类似比特币挖矿的原理。服务器生成一个随机字符串，用户需要在这个随机字符串后面另外加一个随机字符串，并且计算拼接后字符串的哈希值，要求哈希值开头有 n 位为 0 。通过调整 n 就可以调整难度。

kisshere

Mar 8, 2022

前端搞复杂计算？？？你不怕杀毒软件报你网页挖矿？

xiao109

Mar 8, 2022

用户：这破网站咋这么耗 CPU 呢？下次不来了

0o0O0o0O0o

Mar 8, 2022 via iPhone

我建议做反爬的可以先大致了解或者实践反反爬

siweipancc

Mar 8, 2022 via iPhone

第二天偷偷更新成一半挖矿一半解密

dingyaguang117

Mar 8, 2022 via iPhone

参考比特币挖矿，hash(时间戳+随机数) 结果末尾 n 个 0 的为成功。

3dwelcome

Mar 8, 2022

以前有个冷门系统叫 freebsd ，为了防止用户登录密码被高频暴力破解，也是用消耗用户 CPU 资源的办法来限制频率。

他们发明了 MD5 加密算法，就是 MD5 自我循环计算 1000 次取结果。

结果你知道的，都是自欺欺人。

locoz

Mar 8, 2022 via Android

这种操作除了降低用户体验以外，其实起不到什么反爬的作用…你以为 cloudflare 的五秒盾是反爬，但其实那个是反 cc 攻击的，从一开始就搞错了。

爬虫并不需要担心算力的问题，并发量和速度没那么高的要求，面对这种操作很无所谓的，随便就算掉了。如果量确实大，实在不行大不了也就是搞几台家用级的高配置电脑起个计算服务专门跑这个计算，成本还没这种场景下的 IP 费用高，从提高爬虫方成本角度的考虑也起不到啥显著作用。