1
for4 2014 年 4 月 28 日
|
3
qonco 2014 年 4 月 28 日
jsoup
|
4
qonco 2014 年 4 月 28 日
正则不是用来匹配html的
|
9
bilipan 2014 年 4 月 28 日
pyquery可以试下,语法跟jquery类似
|
10
binux 2014 年 4 月 28 日
正则比xml建树快得多,直接用xpath,比soup,pyquery快。
即便如此,lxml单进程每秒30个页面还是没问题的。加大并发就好了。 |
11
flyer103 2014 年 4 月 28 日 via Android
@binux 想问下 “lxml单进程每秒30个页面还是没问题的” 是如何测出来的,平均获取单个页面中的数据条目有多少?
|
13
andyhu 2014 年 4 月 28 日
可以不用python吗?nodejs+cheerio非常爽,完全jquery的语法解析,速度也很快
|
14
kxxoling 2014 年 4 月 28 日 via iPad
bs有坑啊!lxml!
|
15
187j3x1 2014 年 4 月 28 日
匹配一堆相同内容 正则舒服很多 能正则就正则
|
16
dreasky 2014 年 4 月 28 日
亲测正则的速度快最灵活
|
17
a2z 2014 年 4 月 28 日
bs4
|
18
tomnee 2014 年 4 月 28 日
pyquery, 套的lxml, 性能比bs好,用起来比较简单。
|
19
daiv 2014 年 4 月 28 日
pyquery,用起来还是很舒服的
|
20
walleL 2014 年 4 月 28 日 不知道大家有没有注意过这个功能, 很赞啊 |
21
okidogi 2014 年 4 月 28 日
beautifulsoup4 使用的就是lxml的库,应该会快一些。
pip install beautifulsoup4 |
24
orancho 2014 年 4 月 29 日 via Android
nokigiri
|
26
remnet 2014 年 5 月 6 日
beautifulsoup 用过 感觉的确挺慢的
|