V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
logonod
V2EX  ›  问与答

百度和谷歌是怎么识别网页的初始发布日期的呢

  •  
  •   logonod · 2015-07-23 02:07:41 +08:00 · 2731 次点击
    这是一个创建于 3411 天前的主题,其中的信息可能已经有所发展或是发生改变。

    比如http://news.qq.com/a/20150722/037755.htm的发布日期是2015-07-22 15:15

    html代码里是<span class="article-time">2015-07-22 15:15</span>

    可是不同的网页标识是不一样的,搜索引擎是怎样识别的呢

    sitemap里可能有,但很多网站不提供sitemap

    header里有last-modified,可视很多都没有

    难道是搜索引擎实时爬取的吗~_~

    6 条回复    2015-07-23 11:50:19 +08:00
    msg7086
        1
    msg7086  
       2015-07-23 02:39:45 +08:00
    还有第一次爬到的时候。
    Septembers
        2
    Septembers  
       2015-07-23 06:44:41 +08:00
    我记得以前Firefox可以直接获取文件的修改时间 好像现在隐藏起来了
    inmyfree
        3
    inmyfree  
       2015-07-23 09:21:54 +08:00
    你可以看http请求的response heads就知道了,里面有个返回是创建时间,最后一次修改时间的,这个就和http状态码304联系的
    inmyfree
        4
    inmyfree  
       2015-07-23 09:24:18 +08:00
    楼主你已经知道答案了...通过这种策略就已经可以显示大部分的发布时间了
    lujjjh
        5
    lujjjh  
       2015-07-23 10:31:07 +08:00   ❤️ 2
    你看很多搜索结果没有日期,有日期的也不一定有 Last Modified 就知道这东西跟 Response Header 或者 Google 的最后一次抓取时间没什么关系了。

    Google 还有个“Structured data markup”的概念,可以实现的效果比如豆瓣搜索结果的评分显示:



    甚至还可以放一些图表上去



    不过 Date Author 之类的跟 Structured data markup 没什么关系,就是硬生生从 HTML 里分析出来的,不信你可以自己写个网站测试一下。这可能是个双向的过程,一方面 Google 根据最常见的 date、author 或者时间的格式来适配获取日期,另一方面网页设计师看这样 Google 能获取到日期和作者那就把 className 直接拿过来用吧。



    只能说 Google 在搜索体验上下了很大的功夫。
    logonod
        6
    logonod  
    OP
       2015-07-23 11:50:19 +08:00
    @lujjjh
    @inmyfree
    @Septembers
    @msg7086
    谢谢各位 好像真的是从html上爬的,和response header无关
    google的爬虫下了不少功夫
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   935 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 22:07 · PVG 06:07 · LAX 14:07 · JFK 17:07
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.