这是一个专门讨论 idea 的地方。

每个人的时间,资源是有限的,有的时候你或许能够想到很多 idea,但是由于现实的限制,却并不是所有的 idea 都能够成为现实。

那这个时候,不妨可以把那些 idea 分享出来,启发别人。
cqcn1991

用强化学习/对抗生成,来做爬虫与反爬虫....?

  •  
  •   cqcn1991 · Nov 3, 2017 · 4935 views
    This topic created in 3136 days ago, the information mentioned may be changed or developed.

    发现自己写的 Amazon 爬虫被封了,因为没有 IP 资源,所以只得自己想办法反反爬 于是把 user agent 随机了一下继续爬,凑合用了 (Ruby,没有 Scrapy 那样的框架...)

    不过想到

    • 爬虫就是一堆规则模拟人的操作,反爬虫就是识别这个规则

    那么,是不是可以两个对抗生成比较好的爬虫 /反爬方法?

    简单来说

    • 在一定的规则内(比如,限定 IP,不封访问页面特别多的用户)对抗
    • 爬虫方希望尽可能用少的 IP 资源
    • 反爬方希望尽可能误封、少封访问频繁的用户

    最后是不是可以得到一个 model,非常接近人的行为?

    不知道这个方法具体叫啥,感觉和对抗生成的思路有点像

    16 replies    2017-11-05 09:05:15 +08:00
    NullMan
        1
    NullMan  
       Nov 3, 2017
    我有个大胆的想法,实现一个 p2p 的爬虫代理。比如你想爬 amazon,那么就通过 p2p 网络,让 p2p 爬虫代理 A 帮助你爬 amazon 1 页面,p2p 爬虫代理 B 帮你爬 amazon 2 页面。

    只要参与了这个 p2p 爬虫网络的人,都可以互相彼此代理爬取,这样就实现了分布式爬虫的效果。

    你为人人,人人为用,这就是 p2p 的精神。
    takato
        2
    takato  
       Nov 3, 2017
    恭喜爬虫币诞生- -
    cqcn1991
        3
    cqcn1991  
    OP
       Nov 3, 2017
    @NullMan 所以还是直接分布式爬虫是吧,哈哈哈哈
    NullMan
        4
    NullMan  
       Nov 3, 2017
    @cqcn1991 p2p 版的分布式爬虫可要比传统的分布式爬虫厉害多了,至少不用花钱,而且人数越多,越不可能会出现与之对抗的反爬虫手段。
    shiny
        5
    shiny  
    PRO
       Nov 3, 2017
    @NullMan 架个蜜罐,封杀所有节点。
    binux
        6
    binux  
       Nov 3, 2017
    结果是所有人都想爬 amazon
    6388xE5FRKTNUT9x
        7
    6388xE5FRKTNUT9x  
       Nov 4, 2017 via Android
    这操作有意思。
    davidqw
        8
    davidqw  
       Nov 4, 2017
    薅羊毛利器。。
    SlipStupig
        9
    SlipStupig  
       Nov 4, 2017
    @takato 我也这么想过,算力取决于你抓取的性能证明....23333
    i730
        10
    i730  
       Nov 4, 2017
    @shiny #5 你这个操作啊..........
    soulmine
        11
    soulmine  
       Nov 4, 2017
    @NullMan 那和去网上扫点代理接口有什么区别 说到底不还是借别人的 IP 么 ww
    fiht
        12
    fiht  
       Nov 4, 2017
    @soulmine 这个区别就很高了啊,这个属于你偷着用别人的资源。
    LukeChien
        13
    LukeChien  
       Nov 4, 2017 via Android
    @NullMan 洋葱网络
    diggerdu
        14
    diggerdu  
       Nov 4, 2017
    日常流行名词造句
    ZiLong
        15
    ZiLong  
       Nov 4, 2017
    3G4G 配合现在的无限流量卡还是有搞头,手机的网络 ip,在重新进网(重启,飞行模式)的时候会换,而且不换也不怕,移动运营商分配给我们的是内网 IP,出口 IP 是大家共享的,对方也不敢封吧
    PPPoE 每次拨号上网的 ip 也是要换的
    silencefent
        16
    silencefent  
       Nov 5, 2017
    长城爬虫,强制万维网上所有站点每日提交更新报文并无偿贡献出来
    不然就 firewall banlist
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2444 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 60ms · UTC 15:58 · PVG 23:58 · LAX 08:58 · JFK 11:58
    ♥ Do have faith in what you're doing.