V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
c29551

某乎的 robots 皮一下很开心?

  •  
  •   c29551 · May 13, 2018 · 5293 views
    This topic created in 2906 days ago, the information mentioned may be changed or developed.
    前面的部分都挺正常,最后皮一下很开心?
    17 replies    2018-05-15 18:32:32 +08:00
    opengps
        1
    opengps  
       May 13, 2018 via Android
    不欢迎预期之外的小搜索引擎?
    Telegram
        2
    Telegram  
       May 13, 2018 via iPhone
    @opengps #1 关键是人家小搜索引擎的爬虫根本不鸟他的 robots 限制
    lukefan
        3
    lukefan  
       May 13, 2018
    淘宝、百度、facebook 等纷纷表示确实很开心
    cairnechen
        4
    cairnechen  
       May 13, 2018
    不知道是不是我的理解偏差,robots 是不是就和君子协定差不多啊
    maemual
        5
    maemual  
       May 13, 2018
    @cairnechen #4 是
    pkookp8
        6
    pkookp8  
       May 13, 2018 via Android
    是我理解错了么,百度家的也是这样
    cairnechen
        7
    cairnechen  
       May 13, 2018
    @maemual 那为什么淘宝的 robots 对百度会有约束力呢?
    whileFalse
        8
    whileFalse  
       May 13, 2018
    皮一下你不开心?
    maemual
        9
    maemual  
       May 13, 2018
    @cairnechen #7 淘宝不是通过 robots.txt 去封的百度啊。。。
    queshengyao
        10
    queshengyao  
       May 13, 2018 via iPhone
    @maemual 请问一下淘宝是如何禁止百度爬虫的?我一直以为是百度遵守了 robots 协议
    oonnnoo
        11
    oonnnoo  
       May 13, 2018
    GitHub,除了 EtaoSpider,国内其他 bot 都被包含在*中,更皮
    maemual
        12
    maemual  
       May 13, 2018
    @queshengyao #10 封一把百度爬虫的 UA 就好了啊。
    queshengyao
        13
    queshengyao  
       May 14, 2018 via iPhone
    @maemual 我用 postman 试了一下,用百度爬虫的 ua 是可以拿到淘宝商品页内容的呀
    maemual
        14
    maemual  
       May 14, 2018 via iPhone
    @queshengyao UA 只是举个例子,还有很多手段啊,比如封百度爬虫的 IP 段之类的
    queshengyao
        15
    queshengyao  
       May 14, 2018 via iPhone
    @maemual 嗯这我知道,要封爬虫有很多方式,但我是看到你之前回复说淘宝不是通过 robots 来防止百度爬虫的,所以想知道是百度没遵守 robots 协议,然后淘宝另外用了手段封禁吗?
    maemual
        16
    maemual  
       May 14, 2018
    @queshengyao #15 robots 只是个声明,不是个强制手段,以百度的尿性,能遵循这种君子协定?
    MinonHeart
        17
    MinonHeart  
       May 15, 2018
    github 也这么做。爬虫多了,知乎的土豆服务器可能扛不住
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3538 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 96ms · UTC 12:07 · PVG 20:07 · LAX 05:07 · JFK 08:07
    ♥ Do have faith in what you're doing.