另 如果单纯用正则匹配的话,效率如何?
1
for4 Apr 28, 2014
|
3
qonco Apr 28, 2014
jsoup
|
4
qonco Apr 28, 2014
正则不是用来匹配html的
|
9
bilipan Apr 28, 2014
pyquery可以试下,语法跟jquery类似
|
10
binux Apr 28, 2014
正则比xml建树快得多,直接用xpath,比soup,pyquery快。
即便如此,lxml单进程每秒30个页面还是没问题的。加大并发就好了。 |
13
andyhu Apr 28, 2014
可以不用python吗?nodejs+cheerio非常爽,完全jquery的语法解析,速度也很快
|
14
kxxoling Apr 28, 2014 via iPad
bs有坑啊!lxml!
|
15
187j3x1 Apr 28, 2014
匹配一堆相同内容 正则舒服很多 能正则就正则
|
16
dreasky Apr 28, 2014
亲测正则的速度快最灵活
|
17
a2z Apr 28, 2014
bs4
|
18
tomnee Apr 28, 2014
pyquery, 套的lxml, 性能比bs好,用起来比较简单。
|
19
daiv Apr 28, 2014
pyquery,用起来还是很舒服的
|
20
walleL Apr 28, 2014 不知道大家有没有注意过这个功能, 很赞啊 |
21
okidogi Apr 28, 2014
beautifulsoup4 使用的就是lxml的库,应该会快一些。
pip install beautifulsoup4 |
24
orancho Apr 29, 2014 via Android
nokigiri
|
26
remnet May 6, 2014
beautifulsoup 用过 感觉的确挺慢的
|