发现自己写的 Amazon 爬虫被封了,因为没有 IP 资源,所以只得自己想办法反反爬 于是把 user agent 随机了一下继续爬,凑合用了 (Ruby,没有 Scrapy 那样的框架...)
不过想到
- 爬虫就是一堆规则模拟人的操作,反爬虫就是识别这个规则
那么,是不是可以两个对抗生成比较好的爬虫 /反爬方法?
简单来说
- 在一定的规则内(比如,限定 IP,不封访问页面特别多的用户)对抗
- 爬虫方希望尽可能用少的 IP 资源
- 反爬方希望尽可能误封、少封访问频繁的用户
最后是不是可以得到一个 model,非常接近人的行为?
不知道这个方法具体叫啥,感觉和对抗生成的思路有点像