我的网站原本是用的国外的服务器搭的,因为经常被 GFWED 以及速度慢,前不久迁到了国内的服务器。
而由于域名没有备案,也不能备案( org 域名)只能用 HTTPS 绕开审查,再配合 HSTS,只要让用户访问一次 https 链接就行了。
一开始好好的,百度收录正常,排名也在第一页,我就没多留意。过了段时间,有人突然跟我说百度搜不到我的网站了,我去查了一下,还真搜不到了。
再用 site: 参数搜索,发现快照内容居然变成了机房的无备案阻断页,也就是说百度居然爬到 HTTP 上去了。。
从这里我就感觉百度对于纯 HTTPS 站点很不友好啊,人家谷歌都是大力推广 HTTPS,即使 HTTP 不能访问也一样能收录,还会优先爬取 HTTPS 站点,甚至特殊端口都能爬上去。
最后没办法,只能加了个 CloudFlare CDN 做跳转。。
然而我辛辛苦苦做的 SEO 又付之一炬了,现在百度搜索相关的关键字基本上都排到很后面去了,权重也掉了。
所以建议各位,如果在意百度的排名,没备案不要用国内服务器建站……
1
edsheeran 2019-01-23 01:37:32 +08:00 via iPhone 1
在 v 站只有 google 这一个搜索引擎
|
2
580a388da131 2019-01-23 01:40:25 +08:00 via iPhone
很好奇你为啥要开着 80
|
3
KasuganoSoras OP @580a388da131 我 80 没开,是机房自带的阻断页,只要访问了 80 都会提示未备案
|
4
Trumeet 2019-01-23 01:45:24 +08:00 via Android
很好奇为啥要用百度(
|
5
KasuganoSoras OP @Trumeet 因为网站主要还是面向一些没钱却想开 Minecraft 服务器的中小学生,而他们一般都不会用 Google 或者说根本不知道 Google。
|
6
Trumeet 2019-01-23 04:15:54 +08:00 via Android
@KasuganoSoras 很好奇是什么类型网站
|
7
phy25 2019-01-23 06:45:41 +08:00 via Android
您这不叫纯 HTTPS 网站,百度这策略叫 HTTP 优先。
|
8
lhx2008 2019-01-23 07:57:07 +08:00 via Android
可能百度的蜘蛛没有内置 HSTS,但是我不知道楼主如何得出 HTTPS 不友好的结论,因为 HTTP 都没做跳转,如果浏览器没有 HSTS 或者 HSTS 还没更新,显示测试页应该是意料之中。
|
9
Vegetable 2019-01-23 08:08:59 +08:00 via iPhone
@lhx2008 这个页面这机房的。开了跳转也没用,请求根本到不了服务器,直接就被拦掉了。我不清楚关掉 80 能不能解决
|
11
nlysh007 2019-01-23 08:21:41 +08:00
百度站长后台有 https 认证,认证完,搜索显示的都是 https...
|
12
MonoLogueChi 2019-01-23 08:23:08 +08:00 via Android
不会这样啊,我的都很正常,另外,你这个可以叫纯 https 站吗,http 跳 https 都没有
|
13
VYSE 2019-01-23 08:30:33 +08:00 via Android 1
额,LZ 这个 HSTS 有问题啊,http 仍然返回机房页,其实不含 HSTS 头,也没跳转,所以无论在哪首次登陆,如果不显式走 https,而是默认 http,HSTS 下发一定不成功。
说白了 HSTS 是没法保证首登必须走 https,只保证首登选择了 http 后下次走 https,并且得客户端符合标准。 也就是说首次爬取目标地址是 http 的话就 GG 了,目测百度爬虫并没有分布式共享 HSTS 的能力,也不太可能强求,毕竟两次爬取极有可能是两个爬虫实例。 |
14
botian 2019-01-23 08:52:00 +08:00
我的博客自从加上 https 后就没有被收录过
|
15
Track13 2019-01-23 09:03:21 +08:00 via Android
我的博客 https 正常啊。http 会 301 到 https
|
16
momocraft 2019-01-23 09:46:23 +08:00
如果 http 重定向到 https 并带 HSTS 会不会好点
我怀疑有的潜在访问者也试过 http |
17
chinvo 2019-01-23 09:49:18 +08:00
你的 http 访问没有重定向到 https,在用户访问 http 的情况下 hsts 不生效的
而且你的 https 还不是标准端口,权值就更低了 |
18
privil 2019-01-23 10:04:20 +08:00
你这样的站点,其实就是游走在边缘试探,分分钟机房就关你机器访问了,国内不备案也是心大
|
19
alvin666 2019-01-23 10:06:57 +08:00 via Android
国内域名不备案分分钟被关啊
|
20
KasuganoSoras OP |
21
VYSE 2019-01-23 17:48:40 +08:00
@KasuganoSoras #20 我觉得这里面可能 Google 做的好的是, 假设两个 URL 除了 protocol 不同, 会合并优先只显示 https 索引内容, 但是假设有人显式提交 URL, 比如 http://www.natfrp.org/xxx, 极有可能还会有一个备案页索引在那
|
22
KasuganoSoras OP @VYSE #21 其实和机房也有关系,如果备案阻断页返回个 404 或者其他非 200 的状态,百度也不会把阻断页收录进去,但是它现在返回的是 200,所以百度就把它当成普通网页收录了。
我现在换了 CloudFlare 了,花了几十块钱的万网云解析企业版白买了,还不给退款 |
23
nicoljiang 2019-01-28 22:56:17 +08:00
@580a388da131 典型一知半解还喜欢说
|
24
mostkia 2019-03-20 10:32:22 +08:00
的确似乎是这样子的,我以前专门做过测试,通过查看过服务器日志和会话文件。在开通 https 但 80 端口不通时,完全没有爬虫进来,sess 会话文件根本没有出现过爬虫的记录文件(我的站点,访客进入即激活一个后台回话程序)。但如果同时开通了 80 和 443 时,一段时间内就有十几个蜘蛛会话文件产生(文件大小能够看出来,普通访客进入会加载 js 代码,sess 会话会大一些)。这样的测试进行过好几次,,结果都是这样子的,排除了小概率的情况,基本得出结论,百度目前暂时还不收入纯 https 网页。
|