在 Linux 服务器上,需要从几千个 HTML 文件里提取一些指定内容,请问有哪些好用的 HTML 解析器可以使用?
目前试过用 awk,但 HTML 标签太多,内容所在的地方也不相同,匹配起来很复杂。
1
Jackeriss 2020-08-02 11:42:22 +08:00 via iPhone
beautifulsoup
|
2
ochatokori 2020-08-02 11:59:11 +08:00 via Android
可以的话用 python 吧,python 应该有不少 html 解析库
|
3
misaka19000 2020-08-02 12:21:10 +08:00
python -> xpath
|
4
ipadpro4k 2020-08-02 13:24:30 +08:00 via iPhone
各种 soup
|
5
daimiaopeng 2020-08-02 19:17:43 +08:00
bs4
|
6
csx163 2020-08-02 23:57:17 +08:00
这个深有感触,还是正则靠谱
|
7
shadeofgod 2020-08-03 00:39:51 +08:00 via iPhone
|
8
lxilu 2020-08-03 00:56:06 +08:00 via iPhone
C#平衡对
|
9
kiancyc 2020-11-06 17:35:13 +08:00
|