用强化学习/对抗生成，来做爬虫与反爬虫....?

这是一个专门讨论 idea 的地方。

每个人的时间，资源是有限的，有的时候你或许能够想到很多 idea，但是由于现实的限制，却并不是所有的 idea 都能够成为现实。

那这个时候，不妨可以把那些 idea 分享出来，启发别人。

This topic created in 3136 days ago, the information mentioned may be changed or developed.

发现自己写的 Amazon 爬虫被封了，因为没有 IP 资源，所以只得自己想办法反反爬于是把 user agent 随机了一下继续爬，凑合用了 (Ruby，没有 Scrapy 那样的框架...)

不过想到

爬虫就是一堆规则模拟人的操作，反爬虫就是识别这个规则

那么，是不是可以两个对抗生成比较好的爬虫 /反爬方法?

简单来说

在一定的规则内（比如，限定 IP，不封访问页面特别多的用户）对抗
爬虫方希望尽可能用少的 IP 资源
反爬方希望尽可能误封、少封访问频繁的用户

最后是不是可以得到一个 model，非常接近人的行为?

不知道这个方法具体叫啥，感觉和对抗生成的思路有点像

爬虫

反爬虫

对抗

生成

16 replies • 2017-11-05 09:05:15 +08:00

NullMan

Nov 3, 2017

我有个大胆的想法，实现一个 p2p 的爬虫代理。比如你想爬 amazon，那么就通过 p2p 网络，让 p2p 爬虫代理 A 帮助你爬 amazon 1 页面，p2p 爬虫代理 B 帮你爬 amazon 2 页面。

只要参与了这个 p2p 爬虫网络的人，都可以互相彼此代理爬取，这样就实现了分布式爬虫的效果。

你为人人，人人为用，这就是 p2p 的精神。