发现自己写的 Amazon 爬虫被封了,因为没有 IP 资源,所以只得自己想办法反反爬 于是把 user agent 随机了一下继续爬,凑合用了 (Ruby,没有 Scrapy 那样的框架...)
不过想到
那么,是不是可以两个对抗生成比较好的爬虫 /反爬方法?
简单来说
最后是不是可以得到一个 model,非常接近人的行为?
不知道这个方法具体叫啥,感觉和对抗生成的思路有点像
1
NullMan 2017-11-03 22:50:27 +08:00
我有个大胆的想法,实现一个 p2p 的爬虫代理。比如你想爬 amazon,那么就通过 p2p 网络,让 p2p 爬虫代理 A 帮助你爬 amazon 1 页面,p2p 爬虫代理 B 帮你爬 amazon 2 页面。
只要参与了这个 p2p 爬虫网络的人,都可以互相彼此代理爬取,这样就实现了分布式爬虫的效果。 你为人人,人人为用,这就是 p2p 的精神。 |
2
takato 2017-11-03 22:51:24 +08:00
恭喜爬虫币诞生- -
|
4
NullMan 2017-11-03 22:55:01 +08:00
@cqcn1991 p2p 版的分布式爬虫可要比传统的分布式爬虫厉害多了,至少不用花钱,而且人数越多,越不可能会出现与之对抗的反爬虫手段。
|
6
binux 2017-11-03 23:57:15 +08:00
结果是所有人都想爬 amazon
|
7
showgood163 2017-11-04 00:03:24 +08:00 via Android
这操作有意思。
|
8
davidqw 2017-11-04 10:33:42 +08:00
薅羊毛利器。。
|
9
SlipStupig 2017-11-04 10:38:26 +08:00
@takato 我也这么想过,算力取决于你抓取的性能证明....23333
|
14
diggerdu 2017-11-04 19:09:03 +08:00
日常流行名词造句
|
15
ZiLong 2017-11-04 22:54:57 +08:00
3G4G 配合现在的无限流量卡还是有搞头,手机的网络 ip,在重新进网(重启,飞行模式)的时候会换,而且不换也不怕,移动运营商分配给我们的是内网 IP,出口 IP 是大家共享的,对方也不敢封吧
PPPoE 每次拨号上网的 ip 也是要换的 |
16
silencefent 2017-11-05 09:05:15 +08:00
长城爬虫,强制万维网上所有站点每日提交更新报文并无偿贡献出来
不然就 firewall banlist |