V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
SonicY
V2EX  ›  反馈

V2EX 为什么允许搜索引擎访问 /member

  •  
  •   SonicY · 2017-12-26 11:06:15 +08:00 · 4319 次点击
    这是一个创建于 2523 天前的主题,其中的信息可能已经有所发展或是发生改变。
    再或者说 V2EX 如何对抗类似此类爬虫的网站?
    https://www.v9kk.com/v2ex/user/site?sort=-user_id
    第 1 条附言  ·  2018-01-09 09:58:41 +08:00
    算了我补充一下吧
    第一点: 就是 V2EX 现在只隐藏用户曾经发表主题的做法,对于保护隐私而言,用处真的不大,我知道 V2EX 不会提供注销账户功能,但至少能保护下用户的隐私吧?这一点是应该作为一个社区在互联网上的基本要求,用户的基本权利。
    当然我个人还是希望 V2EX 能够遵守 《电信和互联网用户个人信息保护规定》第九条
    第二点: 就是这位爬虫网站的作者如果能看到,麻烦还请更新一下内容,不然 Google 总是搜到以前的内容,还是比较烦人的。
    7 条回复    2017-12-26 20:16:35 +08:00
    wxsm
        1
    wxsm  
       2017-12-26 13:08:14 +08:00
    说得好像你有什么办法能够“不允许”一样。
    SonicY
        2
    SonicY  
    OP
       2017-12-26 14:50:51 +08:00
    @wxsm 感觉现在百度也没有太恶劣的违反 robots.txt 的行为吧
    wxsm
        3
    wxsm  
       2017-12-26 16:12:20 +08:00
    @SonicY 所以你贴的这个页面,是 Google 帮他爬的,还是百度帮他爬的呢?
    SonicY
        4
    SonicY  
    OP
       2017-12-26 17:01:11 +08:00
    @wxsm 这好像是两个问题吧
    zpf124
        5
    zpf124  
       2017-12-26 17:16:53 +08:00
    @SonicY 那个哥们说的是一个问题,爬虫可以伪装成普通用户,我也可以写爬虫,你也可以写爬虫;
    而你说的对抗爬虫和阻止搜索引起反倒是两个问题。

    robots.txt 仅仅是个公告声明而已, 我餐馆门口立个牌子,华人与狗不得入内,你直接强行闯或者你说你是日本人我管不住啊。

    所以 你的标题是错的,v2 是不允许搜索引擎爬去部分内容的。

    内容里问的 v2 对抗爬虫 这就是另一个问题了,我不是 v2 的也不知道他们的策略,但不论啥网站有人有心爬你怎么也防不住。



    回到一开始 你看到的那个网站应该就是站长自己的爬虫程序爬的,就是属于强闯的这种,谁管你公告写的写啥啊。
    SonicY
        6
    SonicY  
    OP
       2017-12-26 17:56:17 +08:00
    @zpf124 这本来就是两个问题啊。。。
    zpf124
        7
    zpf124  
       2017-12-26 20:16:35 +08:00
    @SonicY 那问题的答案显而易见了,我也都回答了.
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1047 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 19ms · UTC 19:33 · PVG 03:33 · LAX 11:33 · JFK 14:33
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.