V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
KasuganoSoras
V2EX  ›  站长

百度对于纯 HTTPS 站点非常不友好

  •  
  •   KasuganoSoras · 2019-01-23 01:03:05 +08:00 · 1694 次点击
    这是一个创建于 2131 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我的网站原本是用的国外的服务器搭的,因为经常被 GFWED 以及速度慢,前不久迁到了国内的服务器。

    而由于域名没有备案,也不能备案( org 域名)只能用 HTTPS 绕开审查,再配合 HSTS,只要让用户访问一次 https 链接就行了。

    一开始好好的,百度收录正常,排名也在第一页,我就没多留意。过了段时间,有人突然跟我说百度搜不到我的网站了,我去查了一下,还真搜不到了。

    再用 site: 参数搜索,发现快照内容居然变成了机房的无备案阻断页,也就是说百度居然爬到 HTTP 上去了。。

    img

    从这里我就感觉百度对于纯 HTTPS 站点很不友好啊,人家谷歌都是大力推广 HTTPS,即使 HTTP 不能访问也一样能收录,还会优先爬取 HTTPS 站点,甚至特殊端口都能爬上去。

    img

    最后没办法,只能加了个 CloudFlare CDN 做跳转。。

    然而我辛辛苦苦做的 SEO 又付之一炬了,现在百度搜索相关的关键字基本上都排到很后面去了,权重也掉了。

    所以建议各位,如果在意百度的排名,没备案不要用国内服务器建站……

    24 条回复    2019-03-20 10:32:22 +08:00
    edsheeran
        1
    edsheeran  
       2019-01-23 01:37:32 +08:00 via iPhone   ❤️ 1
    在 v 站只有 google 这一个搜索引擎
    580a388da131
        2
    580a388da131  
       2019-01-23 01:40:25 +08:00 via iPhone
    很好奇你为啥要开着 80
    KasuganoSoras
        3
    KasuganoSoras  
    OP
       2019-01-23 01:41:35 +08:00   ❤️ 1
    @580a388da131 我 80 没开,是机房自带的阻断页,只要访问了 80 都会提示未备案
    Trumeet
        4
    Trumeet  
       2019-01-23 01:45:24 +08:00 via Android
    很好奇为啥要用百度(
    KasuganoSoras
        5
    KasuganoSoras  
    OP
       2019-01-23 01:46:53 +08:00
    @Trumeet 因为网站主要还是面向一些没钱却想开 Minecraft 服务器的中小学生,而他们一般都不会用 Google 或者说根本不知道 Google。
    Trumeet
        6
    Trumeet  
       2019-01-23 04:15:54 +08:00 via Android
    @KasuganoSoras 很好奇是什么类型网站
    phy25
        7
    phy25  
       2019-01-23 06:45:41 +08:00 via Android
    您这不叫纯 HTTPS 网站,百度这策略叫 HTTP 优先。
    lhx2008
        8
    lhx2008  
       2019-01-23 07:57:07 +08:00 via Android
    可能百度的蜘蛛没有内置 HSTS,但是我不知道楼主如何得出 HTTPS 不友好的结论,因为 HTTP 都没做跳转,如果浏览器没有 HSTS 或者 HSTS 还没更新,显示测试页应该是意料之中。
    Vegetable
        9
    Vegetable  
       2019-01-23 08:08:59 +08:00 via iPhone
    @lhx2008 这个页面这机房的。开了跳转也没用,请求根本到不了服务器,直接就被拦掉了。我不清楚关掉 80 能不能解决
    ZE3kr
        10
    ZE3kr  
       2019-01-23 08:10:36 +08:00 via iPhone
    @Vegetable 关掉 80 端口后就没有这个页面,访问 80 端口是超时错误
    nlysh007
        11
    nlysh007  
       2019-01-23 08:21:41 +08:00
    百度站长后台有 https 认证,认证完,搜索显示的都是 https...
    MonoLogueChi
        12
    MonoLogueChi  
       2019-01-23 08:23:08 +08:00 via Android
    不会这样啊,我的都很正常,另外,你这个可以叫纯 https 站吗,http 跳 https 都没有
    VYSE
        13
    VYSE  
       2019-01-23 08:30:33 +08:00 via Android   ❤️ 1
    额,LZ 这个 HSTS 有问题啊,http 仍然返回机房页,其实不含 HSTS 头,也没跳转,所以无论在哪首次登陆,如果不显式走 https,而是默认 http,HSTS 下发一定不成功。
    说白了 HSTS 是没法保证首登必须走 https,只保证首登选择了 http 后下次走 https,并且得客户端符合标准。
    也就是说首次爬取目标地址是 http 的话就 GG 了,目测百度爬虫并没有分布式共享 HSTS 的能力,也不太可能强求,毕竟两次爬取极有可能是两个爬虫实例。
    botian
        14
    botian  
       2019-01-23 08:52:00 +08:00
    我的博客自从加上 https 后就没有被收录过
    Track13
        15
    Track13  
       2019-01-23 09:03:21 +08:00 via Android
    我的博客 https 正常啊。http 会 301 到 https
    momocraft
        16
    momocraft  
       2019-01-23 09:46:23 +08:00
    如果 http 重定向到 https 并带 HSTS 会不会好点

    我怀疑有的潜在访问者也试过 http
    chinvo
        17
    chinvo  
       2019-01-23 09:49:18 +08:00
    你的 http 访问没有重定向到 https,在用户访问 http 的情况下 hsts 不生效的

    而且你的 https 还不是标准端口,权值就更低了
    privil
        18
    privil  
       2019-01-23 10:04:20 +08:00
    你这样的站点,其实就是游走在边缘试探,分分钟机房就关你机器访问了,国内不备案也是心大
    alvin666
        19
    alvin666  
       2019-01-23 10:06:57 +08:00 via Android
    国内域名不备案分分钟被关啊
    KasuganoSoras
        20
    KasuganoSoras  
    OP
       2019-01-23 17:37:07 +08:00 via iPhone
    @VYSE 对的,我的意思就是,百度不像 Google,Google 是优先爬 https 页面,而百度是优先爬 http。
    @chinvo 网站的端口是 443,4443 那个是我的软件的 API 请求地址,不知道为啥也给谷歌收录了

    另外我看到好像有国内的免备案 301 跳转服务器,不知道靠谱不
    VYSE
        21
    VYSE  
       2019-01-23 17:48:40 +08:00
    @KasuganoSoras #20 我觉得这里面可能 Google 做的好的是, 假设两个 URL 除了 protocol 不同, 会合并优先只显示 https 索引内容, 但是假设有人显式提交 URL, 比如 http://www.natfrp.org/xxx, 极有可能还会有一个备案页索引在那
    KasuganoSoras
        22
    KasuganoSoras  
    OP
       2019-01-23 17:51:53 +08:00
    @VYSE #21 其实和机房也有关系,如果备案阻断页返回个 404 或者其他非 200 的状态,百度也不会把阻断页收录进去,但是它现在返回的是 200,所以百度就把它当成普通网页收录了。
    我现在换了 CloudFlare 了,花了几十块钱的万网云解析企业版白买了,还不给退款
    nicoljiang
        23
    nicoljiang  
       2019-01-28 22:56:17 +08:00
    @580a388da131 典型一知半解还喜欢说
    mostkia
        24
    mostkia  
       2019-03-20 10:32:22 +08:00
    的确似乎是这样子的,我以前专门做过测试,通过查看过服务器日志和会话文件。在开通 https 但 80 端口不通时,完全没有爬虫进来,sess 会话文件根本没有出现过爬虫的记录文件(我的站点,访客进入即激活一个后台回话程序)。但如果同时开通了 80 和 443 时,一段时间内就有十几个蜘蛛会话文件产生(文件大小能够看出来,普通访客进入会加载 js 代码,sess 会话会大一些)。这样的测试进行过好几次,,结果都是这样子的,排除了小概率的情况,基本得出结论,百度目前暂时还不收入纯 https 网页。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2855 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 09:21 · PVG 17:21 · LAX 01:21 · JFK 04:21
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.