1
ZzFoo 2014-09-08 18:48:15 +08:00 1
用Xpath吧
|
2
mhycy 2014-09-08 19:17:45 +08:00 1
正则表达式
|
5
paulw54jrn 2014-09-08 19:24:49 +08:00 1
xpath, xquery , xslt 都可以~
|
6
mthli OP @paulw54jrn 嗯嗯,thx~
|
7
Automan 2014-09-08 19:28:17 +08:00 1
有很多HTML DOM parser,用起来比正则方便多了。。
|
9
paulw54jrn 2014-09-08 19:31:22 +08:00
beautifulSoup 挺方便的~
|
10
mthli OP @paulw54jrn 嗯,收下了。不过我是打算用Java。以后写Python的时候再用。
|
13
ericls 2014-09-08 20:04:33 +08:00 2
pyquery
|
14
scusjs 2014-09-08 20:06:40 +08:00 1
jsoup
|
15
belin520 2014-09-08 20:16:48 +08:00 via Android 1
什么语言好像都有**query之类的库。
|
16
tinyhill 2014-09-08 20:26:59 +08:00 1
node + jquery
|
18
neverno 2014-09-08 20:37:55 +08:00 1
beautifulsoup
|
19
baka 2014-09-08 20:47:12 +08:00 via iPhone 1
在用beautifulsoup之前一直都是粗暴split的
|
21
ccbikai 2014-09-08 20:54:29 +08:00 1
|
22
wwttc 2014-09-08 20:55:11 +08:00 1
正则,beautifulsoup,xpath,都可以。最方便的还是xpath
|
23
ceclinux 2014-09-08 23:02:34 +08:00 1
nodejs可以用jsdom
|
24
refresh 2014-09-08 23:07:07 +08:00 2
node.js + cherrio,jsdom太重了
|
25
zyx89513 2014-09-08 23:07:42 +08:00 1
beautifulSoup
|
26
Comdex 2014-09-08 23:09:57 +08:00 via Android 1
goquery
|
27
lightening 2014-09-08 23:13:45 +08:00 1
Ruby 的话就用 Nokogiri (鋸).
|
28
cxshun 2014-09-08 23:16:08 +08:00 1
xpath是最好的方案,正则的话就太麻烦了。但遇到不规范的html时,这也比较杯具了,只能先处理一下再用xpath。
|
29
txlty 2014-09-08 23:54:35 +08:00 2
那个。。难道说拆数组,很土很落后?
|
31
scola 2014-09-09 08:18:23 +08:00 1
python + lxml
|
32
RangerWolf 2014-09-09 09:19:45 +08:00 1
了解到有些比价软件的页面解析用的是正则~ 不过个人一直是Java + JSoup。 再加上xpath的话,不知道哪个效率更高一点~
|
33
djyde 2014-09-09 09:48:52 +08:00 1
|
34
ZzFoo 2014-09-09 10:21:28 +08:00
对了,配合火狐的Xpath Checker插件,可以检查你的表达式选取到的结果
|
35
binux 2014-09-09 10:31:52 +08:00 1
[如何从 WEB 页面中提取信息](http://blog.binux.me/2014/07/how-to-extract-data-from-web/)
|
36
miao 2014-09-09 10:42:00 +08:00 1
如果是抓取到本地(win环境) 请用火车头
|
38
Yannis1990 2014-09-09 11:37:36 +08:00
pyquery +1
|
39
master 2014-09-09 11:39:01 +08:00 1
node.js + cherrio
|
40
bigtan 2014-09-09 11:41:09 +08:00
bs4
|
41
imn1 2014-09-09 11:58:03 +08:00 1
网页数量很多的话(过万),建议还是尽可能用正则吧
|
43
jsq2627 2014-09-09 12:49:44 +08:00
正则高效,xquery 容易
|
44
jedihy 2014-09-09 14:30:42 +08:00 via iPhone 1
最好正则,其它库会根据html构造一棵dom树,效率极低。这些厚重的库并不是用来做这种简单的html抓取
|
46
mucid 2014-09-10 11:00:17 +08:00
xpath,不要用正则
|