在 Linux 服务器上,需要从几千个 HTML 文件里提取一些指定内容,请问有哪些好用的 HTML 解析器可以使用?
目前试过用 awk,但 HTML 标签太多,内容所在的地方也不相同,匹配起来很复杂。
1
Jackeriss Aug 2, 2020 via iPhone
beautifulsoup
|
2
ochatokori Aug 2, 2020 via Android
可以的话用 python 吧,python 应该有不少 html 解析库
|
3
misaka19000 Aug 2, 2020
python -> xpath
|
4
ipadpro4k Aug 2, 2020 via iPhone
各种 soup
|
5
labubu Aug 2, 2020
bs4
|
6
csx163 Aug 2, 2020
这个深有感触,还是正则靠谱
|
7
shadeofgod Aug 3, 2020 via iPhone
|
8
lxilu Aug 3, 2020 via iPhone
C#平衡对
|
9
kiancyc Nov 6, 2020
|