LichMscy
V2EX  ›  问与答

发现一个很 awesome 的网站

  •  
  •   LichMscy · Oct 11, 2017 · 2589 views
    This topic created in 3135 days ago, the information mentioned may be changed or developed.
    https://mercury.postlight.com/web-parser/

    号称可以直接拉到 HTML 的文章内容正文的数据,测试了很多资讯站基本上都覆盖的比较完美。
    不过感觉不太可能是手动覆盖了这些测试站点的样式,所以应该用的算法之类的实现。

    大家有相关的资料可以参考下吗?对这个非常感兴趣
    5 replies    2017-10-12 09:22:41 +08:00
    cubelate
        1
    cubelate  
       Oct 11, 2017
    有意思,可能是通过判断位置,z-index,大小之类吧。把自己当做浏览器,分析最前面最大块的内容。
    airycanon
        2
    airycanon  
       Oct 11, 2017   ❤️ 1
    @kenshin 感觉简悦可以借鉴一下,处理不在支持列表中的网站。
    ygger
        3
    ygger  
       Oct 11, 2017
    这是我的一个正文提取器: http://kandouban.top/extractor
    kenshin
        5
    kenshin  
       Oct 12, 2017 via iPhone
    @airycanon
    之前有参考过这个,但它是传到服务器处理。
    即将发布的 1.0.4 基本上可以覆盖全部的页面了。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5525 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 03:50 · PVG 11:50 · LAX 20:50 · JFK 23:50
    ♥ Do have faith in what you're doing.