提取网页数据需要，请问有什么 HTML 解析器好用？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

This topic created in 2094 days ago, the information mentioned may be changed or developed.

在 Linux 服务器上，需要从几千个 HTML 文件里提取一些指定内容，请问有哪些好用的 HTML 解析器可以使用？

目前试过用 awk，但 HTML 标签太多，内容所在的地方也不相同，匹配起来很复杂。

9 replies • 2020-11-06 17:35:13 +08:00

Jackeriss

Aug 2, 2020 via iPhone

beautifulsoup

ochatokori

Aug 2, 2020 via Android

可以的话用 python 吧，python 应该有不少 html 解析库

misaka19000

Aug 2, 2020

python -> xpath

ipadpro4k

Aug 2, 2020 via iPhone

各种 soup

labubu

Aug 2, 2020

bs4

csx163

Aug 2, 2020

这个深有感触，还是正则靠谱

shadeofgod

Aug 3, 2020 via iPhone

lxilu

Aug 3, 2020 via iPhone

C#平衡对

kiancyc

Nov 6, 2020