host:xxx.cn
connection:close
remoteip:111.206.36.10
x-forwarded-for:111.206.36.10
user-agent:Mozilla/5.0 (Windows NT 6.1; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0
accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
referer: http://www.baidu.com/s?wd=TQ7U
accept-encoding:gzip
accept-language:en-US,*
这是其中一个请求的请求头信息,host 是我们公司的网址我给抹掉了。
referer 中搜索关键词是“TQ7U”,不可能通过这个关键词搜索到我们公司的网站吧,而且基本每个请求都是这样的,关键词都是随机字母加数字。
现在公司要做访问人数统计,这样的 ip 请求头又没包含百度蜘蛛信息,但是 ip 拿去“ip138.com”这个网站查却能查到是百度蜘蛛的 ip,百度蜘蛛相关文档根本没有提到这个东西,而且还没有客服或技术可以询问的入口。
1
herozzm 2020-10-15 09:35:58 +08:00
百度好像会隐藏 referer,只要被百度发现一个地址能访问,它肯定会爬的
|
2
ShutTheFu2kUP OP @herozzm
这个 referer 其实不是关键,百度蜘蛛的文档上写的是他们会在爬虫的请求头上加上如下的 User-Agent 信息,可是你可以看上面的这个请求 User-Agent 并没有包含百度爬虫的 User-Agent,但是 ip 拿去查询它又是百度爬虫的 ip user-agent:Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html) |
3
westoy 2020-10-15 09:44:47 +08:00 1
通常百度蜘蛛 host 查询 IP 是 baiduspider 开头的
不过主流搜索引擎为了检测网站有没有面向爬虫针对性吐数据, 也会用一些非标 IP 段和 http 头做检测, 也不好说 |
4
herozzm 2020-10-15 09:53:48 +08:00
@ShutTheFu2kUP 好像不会按规矩来,之前还爆出不遵守 robots.txt 文件违规抓取
|
5
ShutTheFu2kUP OP @herozzm 好吧,这坑爹百度
|
6
worldtongfb 2020-10-15 10:28:36 +08:00 via Android
我司也有这个问题,从百度过来,一查都是 wd=4 位随机字符串
|
7
worldtongfb 2020-10-15 10:49:29 +08:00
请求来源 :111.206.36.17
请求引用 : http://www.baidu.com/s?wd=good6x5 设备信息 :Mozilla/5.0 (Windows NT 6.1; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0 之前很多这样的 最近少了 |
8
opengps 2020-10-15 10:54:10 +08:00
高概率是假的百度爬虫,你查下来源 ip 分散的乱七八糟,不像是百度的 ip 地址
|
9
ShutTheFu2kUP OP @worldtongfb 对啊,快被这个烦死了,也没有反馈和咨询入口
|
10
ShutTheFu2kUP OP @opengps 感觉不像是假的,ip 就在那几个段内,就是不知道为什么 user-agent 没有带爬虫信息
|
11
Soar360 2020-10-15 11:13:49 +08:00
|
12
worldtongfb 2020-10-15 11:22:25 +08:00
是真的百度爬虫 IP,ipip.net 查了是百度的机房,dns 反查也是百度
|
13
id4alex 2020-10-15 11:27:35 +08:00
百度的是 123 开头和另外一个多少开头的
你这个是伪装的 |
14
id4alex 2020-10-15 11:29:22 +08:00
看错了, 来自百度的 refer 是 www.baidu.com 后面带一长串加密的字符, 你这个也是伪造 refer 的
|
15
josca 2020-10-15 11:58:23 +08:00 1
印象中好像是“搜索引擎公司为了检查站长是不是只针对搜索引擎给出一份特意优化的页面,而不同于用户访问的页面,会采取普通 IP 和 UA 进行爬取页面,进而对比站长是否作弊”
|
16
worldtongfb 2020-10-15 11:58:58 +08:00
恩 用 host 命令查确实没查到。。。可能是百度云买的服务器,ipip 和 ip138 标记成北京市 北京百度网讯科技有限公司联通节点(BGP)就以为是百度的爬虫了
|
17
ShutTheFu2kUP OP @Soar360 这些有问题的 ip 就是没有 User-Agent,而且 dns 反差不管有没有带 user-agent,我都查不出结果不知道为什么
|
18
hundan 2020-10-15 12:14:19 +08:00
首先排除一下 从百度云购买服务器 的说法,查了下 asn 111.206.36.0/22 同段下有百度主站服务器 111.206.37.114 证书可靠
比较倾向于 #15 检查作弊的说法 |
19
worldtongfb 2020-10-15 12:23:25 +08:00 via Android
@hundan
@ShutTheFu2kUP 这种的最蛋疼,说是百度吧,没有 ua,host 也查不出来,说不是百度吧,ip 确实相近,而且 15L 的说法也有可能,只能看看频率高不高,不高就不理完事了 |
20
ShutTheFu2kUP OP @josca 好的,谢谢大佬,这个好像确实比较说得通
|