1
ZzFoo 2014 年 9 月 8 日 用Xpath吧
|
2
mhycy 2014 年 9 月 8 日 正则表达式
|
5
paulw54jrn 2014 年 9 月 8 日 xpath, xquery , xslt 都可以~
|
6
mthli OP @paulw54jrn 嗯嗯,thx~
|
7
Automan 2014 年 9 月 8 日 有很多HTML DOM parser,用起来比正则方便多了。。
|
9
paulw54jrn 2014 年 9 月 8 日
beautifulSoup 挺方便的~
|
10
mthli OP @paulw54jrn 嗯,收下了。不过我是打算用Java。以后写Python的时候再用。
|
13
ericls 2014 年 9 月 8 日 pyquery
|
14
scusjs 2014 年 9 月 8 日 jsoup
|
15
icanfork 2014 年 9 月 8 日 via Android 什么语言好像都有**query之类的库。
|
16
tinyhill 2014 年 9 月 8 日 node + jquery
|
18
neverno 2014 年 9 月 8 日 beautifulsoup
|
19
baka 2014 年 9 月 8 日 via iPhone 在用beautifulsoup之前一直都是粗暴split的
|
21
ccbikai PRO |
22
wwttc 2014 年 9 月 8 日 正则,beautifulsoup,xpath,都可以。最方便的还是xpath
|
23
ceclinux 2014 年 9 月 8 日 nodejs可以用jsdom
|
24
refresh 2014 年 9 月 8 日 node.js + cherrio,jsdom太重了
|
25
dofaith09 2014 年 9 月 8 日 beautifulSoup
|
26
Comdex 2014 年 9 月 8 日 via Android goquery
|
27
lightening 2014 年 9 月 8 日 Ruby 的话就用 Nokogiri (鋸).
|
28
cxshun 2014 年 9 月 8 日 xpath是最好的方案,正则的话就太麻烦了。但遇到不规范的html时,这也比较杯具了,只能先处理一下再用xpath。
|
29
txlty 2014 年 9 月 8 日 那个。。难道说拆数组,很土很落后?
|
31
scola 2014 年 9 月 9 日 python + lxml
|
32
RangerWolf 2014 年 9 月 9 日 了解到有些比价软件的页面解析用的是正则~ 不过个人一直是Java + JSoup。 再加上xpath的话,不知道哪个效率更高一点~
|
33
djyde 2014 年 9 月 9 日 |
34
ZzFoo 2014 年 9 月 9 日
对了,配合火狐的Xpath Checker插件,可以检查你的表达式选取到的结果
|
35
binux 2014 年 9 月 9 日 [如何从 WEB 页面中提取信息](http://blog.binux.me/2014/07/how-to-extract-data-from-web/)
|
36
miao 2014 年 9 月 9 日 如果是抓取到本地(win环境) 请用火车头
|
38
Yannis1990 2014 年 9 月 9 日
pyquery +1
|
39
master 2014 年 9 月 9 日 node.js + cherrio
|
40
bigtan 2014 年 9 月 9 日
bs4
|
41
imn1 2014 年 9 月 9 日 网页数量很多的话(过万),建议还是尽可能用正则吧
|
43
jsq2627 2014 年 9 月 9 日
正则高效,xquery 容易
|
44
jedihy 2014 年 9 月 9 日 via iPhone 最好正则,其它库会根据html构造一棵dom树,效率极低。这些厚重的库并不是用来做这种简单的html抓取
|
46
mucid 2014 年 9 月 10 日
xpath,不要用正则
|