V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
also24
V2EX  ›  问与答

想不通自建的 Google 镜像是怎么被镜像导航站发现并收录的

  •  
  •   also24 · 2017-04-30 19:14:21 +08:00 · 7829 次点击
    这是一个创建于 2755 天前的主题,其中的信息可能已经有所发展或是发生改变。

    为了自己方便,就用 ngx_http_google_filter_module 搭建了个 Google 镜像给自己用。 因为只有自己在用,也就没有加任何验证机制。

    今早使用的时候突然发现触发了人机验证码,觉得很奇怪就去查日志,结果发现 日志爆了

    查 Referer 发现许多站点发布了我的镜像的地址出去:

    那么问题来了,我这个镜像一直是自己自用的,加了 Chrome 自定义搜索和 Safari 书签,加了 Workflow,除此之外没有给别人用过或者对外发布过,这些站是怎么爬到我这个地址的呢?

    目前怀疑的主要有以下几种情况:

    1. 在 log 里面有看到 bing 的爬虫,有可能进了某些搜索结果
    2. 这个站有申请 Let's encrypt 的证书,在 Google Certificate Transparency 是可以查到子域域名的,gg 开头一看就有特定功能
    3. 我自己健忘,有发过域名给别人但是自己忘了
    4. 我通过这个搜索访问过部分站,在他们的访问日志里留下了 Referer
    第 1 条附言  ·  2017-05-01 14:27:50 +08:00
    一觉睡醒发现好多收藏的…… 你们都是来收藏镜像导航站的吧……
    26 条回复    2017-05-03 02:36:04 +08:00
    wwqgtxx
        1
    wwqgtxx  
       2017-04-30 19:51:09 +08:00 via iPhone   ❤️ 1
    可能分享给了某人然后用 360 浏览器访问过,然后…
    also24
        2
    also24  
    OP
       2017-04-30 19:55:43 +08:00
    @wwqgtxx #1 假设确实是第三条我自己健忘,但那最多也就是三五个人用用,也不至于直接进了镜像导航站呐
    wwqgtxx
        3
    wwqgtxx  
       2017-04-30 19:56:54 +08:00   ❤️ 1
    @also24 你试试在 360 搜索中能不能搜到你的网站,如果能,应该就是 360 浏览器干的好事了
    also24
        4
    also24  
    OP
       2017-04-30 20:02:17 +08:00
    @wwqgtxx #3 试了,啥都没有……
    arnofeng
        5
    arnofeng  
       2017-04-30 20:14:28 +08:00 via iPhone   ❤️ 1
    加上白名单跳转机制即可。比如我的 g.adminhost.org 非允许网站来源不可访问 直允许直接访问。
    also24
        6
    also24  
    OP
       2017-04-30 20:18:20 +08:00
    @arnofeng #5 限制已经加了,比你这个要严格一些。主要是不明白为什么会被抓到。

    另外日志里还频繁出现 PhantomJS 的身影,也不知道想干啥

    111.202.27.182 - - [30/Apr/2017:20:16:56 +0800] "GET / HTTP/1.1" 401 693 "-" "Mozilla/5.0 (Unknown; Linux x86_64) AppleWebKit/538.1 (KHTML, like Gecko) PhantomJS/2.1.1 Safari/538.1"
    ZE3kr
        7
    ZE3kr  
       2017-04-30 20:47:38 +08:00 via iPhone
    确实可能是第四条,因为我经常从我的网站统计里翻翻来源,然后就找到了一堆 Google 镜像,当然我不会公开出去
    HXM
        8
    HXM  
       2017-04-30 20:57:52 +08:00 via Android
    我也发现了我的镜像站被收录了。。。
    HXM
        9
    HXM  
       2017-04-30 20:58:36 +08:00 via Android
    @also24 请问怎么加限制呢
    also24
        10
    also24  
    OP
       2017-04-30 21:02:48 +08:00   ❤️ 1
    @HXM #9 我有用 verynginx,自己给自己的浏览器加了个 cookie 特征,在 verynginx 上配置放行策略
    also24
        11
    also24  
    OP
       2017-04-30 21:04:56 +08:00
    @ZE3kr #7 hhhh 我就知道会有人看这个
    bkmi
        12
    bkmi  
       2017-04-30 22:06:13 +08:00
    被扫到的,太正常了
    also24
        13
    also24  
    OP
       2017-04-30 22:12:18 +08:00
    @bkmi #12 好奇这个扫是按什么来的,那些扫端口的我能理解,毕竟 IP 和端口就那么多,但是扫子域名?这工作量感觉有些大啊。
    arnofeng
        14
    arnofeng  
       2017-04-30 22:57:19 +08:00 via iPhone
    @arnofeng 为毛你比我更严格 我也加了 cookie 特征 nginx 自带就可以设置的 +同时判断后台 host+前端判断 host。手动滑稽。
    taineric
        15
    taineric  
       2017-04-30 23:09:19 +08:00 via Android
    bing 爬虫在先还是那些网站收录在先?网站收录了肯定有爬虫。
    taineric
        16
    taineric  
       2017-04-30 23:15:50 +08:00 via Android
    谷歌必应都收录了,必应国内版触关键词被和谐了,国际版还可以看到
    also24
        17
    also24  
    OP
       2017-04-30 23:18:16 +08:00
    @arnofeng #14 这里的 “更严格” 指的是 “开放范围更小” 啦,毕竟你的站还是开放给其它人使用的。而我只需要保证自己能用,所以只是在 cookie 里加了一段表明自己身份用来校验的信息啊。

    @taineric #15 bing 在先,而且非常非常的快,站点刚上线 8 个小时 bing 就来了。比 bing 更早的是 trustnet 的证书扫描请求

    208.93.152.79 - - [17/Apr/2017:10:06:36 +0000] "HEAD / HTTP/1.0" 301 0 "-" "-"
    208.93.152.79 - - [17/Apr/2017:10:06:37 +0000] "HEAD / HTTP/1.0" 301 0 "-" "TLSProbe/1.0 (+https://scan.trustnet.venafi.com/)"
    40.77.167.62 - - [17/Apr/2017:15:09:07 +0000] "GET / HTTP/1.1" 301 178 "-" "Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)"
    also24
        18
    also24  
    OP
       2017-04-30 23:20:45 +08:00
    @arnofeng #14 另外我这里没有直接用 nginx 自带的一个原因是 nginx 似乎无法自定义 401 错误页面,verynginx 我本身就装的有,配起来又方便,自然就直接用了。


    @taineric #16 你这里的收录指的是收录了网址么?我在各家搜索引擎看到的都只收录了网址,但是没有收录任何页面信息。
    just1
        19
    just1  
       2017-04-30 23:59:04 +08:00 via Android
    在 dns 服务商把搜索引擎 A 到 127.0.0.1
    also24
        20
    also24  
    OP
       2017-05-01 14:30:41 +08:00
    @just1 #19 蛤?屏蔽搜索引擎也不至于这样啊。。。我直接把蜘蛛的请求也 401 掉就好了
    alect
        21
    alect  
       2017-05-01 16:22:36 +08:00
    我有一个很私人的内容直接没敢做域名的 A 记录,自己在家里的路由器上加的记录……
    also24
        22
    also24  
    OP
       2017-05-01 16:43:56 +08:00
    @alect #21 hhhh 曾经这么干过,后来想想太自欺欺人了,还是 Server 端做好防护比较重要
    msg7086
        23
    msg7086  
       2017-05-02 10:32:32 +08:00
    @also24 别人要是能猜出你自定义的域名……
    那你做啥防护都没用了。
    also24
        24
    also24  
    OP
       2017-05-02 10:34:03 +08:00
    @msg7086 #23 那你要保证你站上没有引用任何外站内容,没有任何从你站上跳出的链接,不然抓 Referer 就抓到了
    msg7086
        25
    msg7086  
       2017-05-02 22:38:07 +08:00
    @also24 然后……还是要猜出原站 IP 地址啊。
    also24
        26
    also24  
    OP
       2017-05-03 02:36:04 +08:00
    @also24 #24 =。= 对我这种穷孩子来说,只有两三台主机。。IP 一猜就猜到了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5943 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 38ms · UTC 02:22 · PVG 10:22 · LAX 18:22 · JFK 21:22
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.