1
chenwenup 2017-11-07 12:59:08 +08:00 1
这是 baidu 比不上 google 的表现吧,并不是原因。
|
2
cy97cool OP @chenwenup 但反过来说 爬不了 github 的项目信息,用户想搜个 github 上的项目搜不到,自然更加比不上咯
|
3
coolcoffee 2017-11-07 13:03:35 +08:00 2
stackoverflow 没有禁止百度, 百度依然比较难检索, 可能是爬虫在墙内,爬墙外比较慢, 然后为了用户体验就把它 KO 了
|
4
oott123 2017-11-07 13:05:13 +08:00 2
从 archive.org 看,github 曾经允许过百度爬取。
https://web.archive.org/web/20150217105548/https://github.com/robots.txt https://web.archive.org/web/20150218110340/https://github.com/robots.txt github 在 2015 年 2 月 18 日移除了对百度蜘蛛的允许,我一开始觉得可能是和 GFW 大炮有关,后来查了一些 wiki 发现这个比 GFW 大炮还早,不知道是什么原因了。 可能是 12306 抢票事件? |
5
MrSoda 2017-11-07 13:08:15 +08:00 3
当年 DDOS github 的时候就是劫持的 baidu 的流量,应该是这个原因吧
|
6
jjianwen68 2017-11-07 13:10:58 +08:00
加这个 bot 是不是要给 github 钱?
|
7
Ellison 2017-11-07 13:35:54 +08:00
Disallow?说的好像百度遵守 robots 协议一样
|
8
f2f2f 2017-11-07 13:37:33 +08:00
@coolcoffee 说得百毒上那么多收录的 H 站都是在国内的服务器咯?
|
9
Antidictator 2017-11-07 13:41:06 +08:00
@Ellison #7 #7 2333333
|
10
bearqq 2017-11-07 15:38:47 +08:00 via Android
我在百度搜到过 tumblr,下面一行红字,大意是该网站访问不稳定
|