V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
qqqfreeboycn
V2EX  ›  Google

为什么在未设置 robots.txt 的情况下, Google 搜索不到上海人大官方网站 www.shrd.gov.cn 的任何内容但是 Bing 却能搜索到大部分公开内容

  •  
  •   qqqfreeboycn · May 17, 2025 via Android · 4090 views
    This topic created in 358 days ago, the information mentioned may be changed or developed.
    搜索 site:www.shrd.gov.cn Google 的搜索结果为 0 ,Bing 的搜索结果包括了大部分公开内容,https://www.shrd.gov.cn 并未设置 robots.txt
    20 replies    2025-05-18 11:45:49 +08:00
    mooyo
        1
    mooyo  
       May 17, 2025 via iPhone
    我记得 23 还是 24 年的时候有个新闻说 google 以后不会再主动索引新网站,站长不去提交就不会爬取
    qqqfreeboycn
        2
    qqqfreeboycn  
    OP
       May 17, 2025 via Android
    @mooyo 不可能吧,而且这个网站也不算新网站呀,起码十几年了
    winzkh
        3
    winzkh  
       May 17, 2025
    说不定是对方 ban 了 google 爬虫的 ip 段
    qqqfreeboycn
        4
    qqqfreeboycn  
    OP
       May 17, 2025 via Android
    @winzkh ……有这个必要吗……
    pingdog
        5
    pingdog  
       May 17, 2025 via Android   ❤️ 2
    所有 gov.cn 都屏蔽了非中国 IP ,不然也不会衍生出"回国 VPN"业务

    2015 之前很宽松,之后就不多说了
    zx123ok
        6
    zx123ok  
    PRO
       May 17, 2025 via Android
    我正好是用境外 SIM 卡看 V 站,点你的链接发现无法访问,切换国内 IP 可以访问。
    结合以前观察,国内部分网站会屏蔽境外 IP 访问。
    所以猜测,可能是 bing 有国内 IP 段的爬虫,而 Google 没有。

    另外刚试验了下,广东人大可以境外 IP 访问,Google 也可以搜索到。
    qqqfreeboycn
        7
    qqqfreeboycn  
    OP
       May 17, 2025 via Android
    @fuzzsh 但是 Google 十几年来一直是有中国境内的爬虫服务器的,203 开头的
    qqqfreeboycn
        8
    qqqfreeboycn  
    OP
       May 17, 2025 via Android
    @zx123ok 我使用日本与香港 IP 地址是可以正常访问的,而且 Google 十几年来一直是有中国境内的爬虫服务器的,203 开头的
    lifei6671
        9
    lifei6671  
       May 17, 2025
    @fuzzsh 我测试,外网 VPS 是可以访问 gov.cn 网站。
    c1985382
        10
    c1985382  
       May 17, 2025 via iPhone
    没有具体验证,但是我想他们要屏蔽境外 IP 一点也不奇怪,因为之前 Google 快照存有他们大量的谎言,比如之前招标监控设备需要识别维吾尔族人功能,结果被老外抓住证据。😅😅😅
    mytsing520
        11
    mytsing520  
    PRO
       May 17, 2025
    测试下来,该网站在海外可以访问,那么只有一种原因就是 Google 的爬虫被拉黑了
    从我抓取到的日志来看,Google 的爬虫访问中国大陆网站,现在基本上都是集中在 66.249 这个段上
    mytsing520
        12
    mytsing520  
    PRO
       May 17, 2025
    要么就是 Google 自己拒绝爬取该网站
    qqqfreeboycn
        13
    qqqfreeboycn  
    OP
       May 17, 2025 via Android
    @mytsing520 是的,203 那些谷翔段爬虫的地址使用频率日渐减少,现在到底还有没有在使用都没法验证,因为谷歌的快照功能都已经关闭了,看不出网页快照是被哪个爬虫爬取的了
    cnrting
        14
    cnrting  
       May 17, 2025 via iPhone
    有没有可能是古歌自己的问题
    qqqfreeboycn
        15
    qqqfreeboycn  
    OP
       May 17, 2025 via Android
    @cnrting 我也在排除可能是哪些问题
    realpg
        16
    realpg  
    PRO
       May 18, 2025
    除非一些特殊涉外的网站

    99%的 gov.cn 网站出于安全考虑屏蔽一切非国内访问

    当然 IP 地址数据的更新有滞后性 同时一些 APNIC 的后分配再分配的 IP 以及一些 APNIC 的碎段有例外
    国内云大厂私下买的一些非内地 IP 在内地广播 为了防止导致无法访问 补充后有时候存在过度补充 会有一些漏网之鱼
    qqqfreeboycn
        17
    qqqfreeboycn  
    OP
       May 18, 2025 via Android
    @realpg 上海人大官方网站 www.shrd.gov.cn 在境外正常访问
    realpg
        18
    realpg  
    PRO
       May 18, 2025
    @qqqfreeboycn #17
    那只能说明上海自认为自己国际化大都市 对中央网信办的规定不执行而已...
    qqqfreeboycn
        19
    qqqfreeboycn  
    OP
       May 18, 2025 via Android
    @realpg 你用 Google 搜索 site:gov.cn 的结果还是有一大把的,而且绝大多数也可以在境外访问,这说明 gov.cn 屏蔽境外访问的情况还是黑名单阶段,而非白名单
    zizon
        20
    zizon  
       May 18, 2025
    境外访问 robots.txt 500.
    索引不到也合理吧
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5990 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 108ms · UTC 06:05 · PVG 14:05 · LAX 23:05 · JFK 02:05
    ♥ Do have faith in what you're doing.