为了自己方便,就用 ngx_http_google_filter_module 搭建了个 Google 镜像给自己用。 因为只有自己在用,也就没有加任何验证机制。
今早使用的时候突然发现触发了人机验证码,觉得很奇怪就去查日志,结果发现
查 Referer 发现许多站点发布了我的镜像的地址出去:
那么问题来了,我这个镜像一直是自己自用的,加了 Chrome 自定义搜索和 Safari 书签,加了 Workflow,除此之外没有给别人用过或者对外发布过,这些站是怎么爬到我这个地址的呢?
目前怀疑的主要有以下几种情况:
1
wwqgtxx 2017-04-30 19:51:09 +08:00 via iPhone 1
可能分享给了某人然后用 360 浏览器访问过,然后…
|
5
arnofeng 2017-04-30 20:14:28 +08:00 via iPhone 1
加上白名单跳转机制即可。比如我的 g.adminhost.org 非允许网站来源不可访问 直允许直接访问。
|
6
also24 OP @arnofeng #5 限制已经加了,比你这个要严格一些。主要是不明白为什么会被抓到。
另外日志里还频繁出现 PhantomJS 的身影,也不知道想干啥 111.202.27.182 - - [30/Apr/2017:20:16:56 +0800] "GET / HTTP/1.1" 401 693 "-" "Mozilla/5.0 (Unknown; Linux x86_64) AppleWebKit/538.1 (KHTML, like Gecko) PhantomJS/2.1.1 Safari/538.1" |
7
ZE3kr 2017-04-30 20:47:38 +08:00 via iPhone
确实可能是第四条,因为我经常从我的网站统计里翻翻来源,然后就找到了一堆 Google 镜像,当然我不会公开出去
|
8
HXM 2017-04-30 20:57:52 +08:00 via Android
我也发现了我的镜像站被收录了。。。
|
10
also24 OP @HXM #9 我有用 verynginx,自己给自己的浏览器加了个 cookie 特征,在 verynginx 上配置放行策略
|
12
bkmi 2017-04-30 22:06:13 +08:00
被扫到的,太正常了
|
13
also24 OP @bkmi #12 好奇这个扫是按什么来的,那些扫端口的我能理解,毕竟 IP 和端口就那么多,但是扫子域名?这工作量感觉有些大啊。
|
14
arnofeng 2017-04-30 22:57:19 +08:00 via iPhone
@arnofeng 为毛你比我更严格 我也加了 cookie 特征 nginx 自带就可以设置的 +同时判断后台 host+前端判断 host。手动滑稽。
|
15
taineric 2017-04-30 23:09:19 +08:00 via Android
bing 爬虫在先还是那些网站收录在先?网站收录了肯定有爬虫。
|
16
taineric 2017-04-30 23:15:50 +08:00 via Android
谷歌必应都收录了,必应国内版触关键词被和谐了,国际版还可以看到
|
17
also24 OP @arnofeng #14 这里的 “更严格” 指的是 “开放范围更小” 啦,毕竟你的站还是开放给其它人使用的。而我只需要保证自己能用,所以只是在 cookie 里加了一段表明自己身份用来校验的信息啊。
@taineric #15 bing 在先,而且非常非常的快,站点刚上线 8 个小时 bing 就来了。比 bing 更早的是 trustnet 的证书扫描请求 208.93.152.79 - - [17/Apr/2017:10:06:36 +0000] "HEAD / HTTP/1.0" 301 0 "-" "-" 208.93.152.79 - - [17/Apr/2017:10:06:37 +0000] "HEAD / HTTP/1.0" 301 0 "-" "TLSProbe/1.0 (+https://scan.trustnet.venafi.com/)" 40.77.167.62 - - [17/Apr/2017:15:09:07 +0000] "GET / HTTP/1.1" 301 178 "-" "Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)" |
18
also24 OP |
19
just1 2017-04-30 23:59:04 +08:00 via Android
在 dns 服务商把搜索引擎 A 到 127.0.0.1
|
21
alect 2017-05-01 16:22:36 +08:00
我有一个很私人的内容直接没敢做域名的 A 记录,自己在家里的路由器上加的记录……
|