1
yangqi 2013-09-25 23:50:30 +08:00
php正则还是最方便了,这个放在前段用jquery很容易就提取了
|
3
emric 2013-09-25 23:54:20 +08:00
Don't try to parse HTML using regex. Find an HTML parser please.
|
4
kojp 2013-09-25 23:57:51 +08:00 via Android
A class named snopy
Have a try. |
6
PrideChung 2013-09-26 00:01:57 +08:00
对于HTML这么复杂的文本正则处理不来的,找个HTML parser才是正道。
|
7
pantaovay 2013-09-26 00:09:00 +08:00
正则处理不来,用DOM操作吧
|
8
jacy OP 谢谢,我试试simplehtml。
|
9
mescoda 2013-09-26 00:31:01 +08:00 1
PHP 用 simplehtmldom
Python 用 [pywebquery](https://github.com/NStal/pywebquery) Node 用 [jwebquery](https://github.com/NStal/jwebquery) |
11
foru17 2013-09-26 01:19:07 +08:00
我记得正则好像是行的。你搜一下 google 搜索结果 正则,参考一下,之前弄过一个类似的。
|
12
faceair 2013-09-26 06:38:15 +08:00
<div class=\"content\">([\s\S]+?(<div[\s\S]+?<\/div>)+?[\s\S]+?)<\/div>
手机写的,你测试下,主要是确定中间的div是一对一对就可以了 |
13
liuyao729 2013-09-26 07:02:33 +08:00
试试phpQuery
|
14
faceair 2013-09-26 07:28:11 +08:00
修改了下,测试貌似通过了
<div class=\"content\">([\s\S]+?(<div[\s\S]+?<\/div>)*?[\s\S]+?)*?<\/div> |
15
alexrezit 2013-09-26 07:39:52 +08:00
不 要 用 正 则.
找 个 parser 用 XPath 很 难 么? |
16
cxshun 2013-09-26 08:51:24 +08:00
其实xpath不是更方便么,直接//div[class='content']/*这个就OK啦。正则解析HTML是没办法的选择。
|
17
jiych 2013-09-26 09:14:24 +08:00
可以用flex
|
18
junp 2013-09-26 09:25:32 +08:00
前端方便
|
19
marchtea 2013-09-26 13:50:20 +08:00
用simple_html_dom来读取,再处理吧.直接弄貌似不是很好弄
|