V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
LUREN
V2EX  ›  问与答

提取网页数据需要,请问有什么 HTML 解析器好用?

  •  
  •   LUREN · Aug 2, 2020 · 2598 views
    This topic created in 2094 days ago, the information mentioned may be changed or developed.

    在 Linux 服务器上,需要从几千个 HTML 文件里提取一些指定内容,请问有哪些好用的 HTML 解析器可以使用?

    目前试过用 awk,但 HTML 标签太多,内容所在的地方也不相同,匹配起来很复杂。

    9 replies    2020-11-06 17:35:13 +08:00
    Jackeriss
        1
    Jackeriss  
       Aug 2, 2020 via iPhone
    beautifulsoup
    ochatokori
        2
    ochatokori  
       Aug 2, 2020 via Android
    可以的话用 python 吧,python 应该有不少 html 解析库
    misaka19000
        3
    misaka19000  
       Aug 2, 2020
    python -> xpath
    ipadpro4k
        4
    ipadpro4k  
       Aug 2, 2020 via iPhone
    各种 soup
    labubu
        5
    labubu  
       Aug 2, 2020
    bs4
    csx163
        6
    csx163  
       Aug 2, 2020
    这个深有感触,还是正则靠谱
    shadeofgod
        7
    shadeofgod  
       Aug 3, 2020 via iPhone
    lxilu
        8
    lxilu  
       Aug 3, 2020 via iPhone
    C#平衡对
    kiancyc
        9
    kiancyc  
       Nov 6, 2020
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3152 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 66ms · UTC 14:33 · PVG 22:33 · LAX 07:33 · JFK 10:33
    ♥ Do have faith in what you're doing.