提取html中某内容，求正则 - V2EX

Home Sign Up Sign In

This topic created in 4626 days ago, the information mentioned may be changed or developed.

html如下：

XXX
<div class="content">

XXXX

</div>
XXX

主要是提取content这个div里的内容，但是这里面的内容不固定，可能里面没有其他标签，还可能有其他的div等标签，正则怎样写呢？
php除了正则还有什么比较方便的方法处理html？

19 replies • 1970-01-01 08:00:00 +08:00

1

yangqi

Sep 25, 2013

php正则还是最方便了，这个放在前段用jquery很容易就提取了

2

jacy

OP

Sep 25, 2013

@yangqi 放前端不行啊，是用php抓取的数据，还需要处理后继续用。

3

emric

Sep 25, 2013

Don't try to parse HTML using regex. Find an HTML parser please.

4

kojp

Sep 25, 2013 via Android

A class named snopy

Have a try.

5

yangqi

Sep 26, 2013

@jacy 如果只是简单提取内容的话regex可以，要是有各种parsing的话可以试试simplehtml库

6

PrideChung

Sep 26, 2013

对于HTML这么复杂的文本正则处理不来的，找个HTML parser才是正道。

7

pantaovay

Sep 26, 2013

正则处理不来，用DOM操作吧

8

jacy

OP

Sep 26, 2013

谢谢，我试试simplehtml。

9

mescoda

Sep 26, 2013

1

PHP 用 simplehtmldom
Python 用 [pywebquery](https://github.com/NStal/pywebquery)
Node 用 [jwebquery](https://github.com/NStal/jwebquery)

10

ericls

Sep 26, 2013 via Android

@mescoda 谢谢我明天看看

11

foru17

Sep 26, 2013

我记得正则好像是行的。你搜一下 google 搜索结果正则，参考一下，之前弄过一个类似的。

12

faceair

Sep 26, 2013

<div class=\"content\">([\s\S]+?(<div[\s\S]+?<\/div>)+?[\s\S]+?)<\/div>

手机写的，你测试下，主要是确定中间的div是一对一对就可以了

13

liuyao729

Sep 26, 2013

试试phpQuery

14

faceair

Sep 26, 2013

修改了下，测试貌似通过了

<div class=\"content\">([\s\S]+?(<div[\s\S]+?<\/div>)*?[\s\S]+?)*?<\/div>

15

alexrezit

Sep 26, 2013

不要用正则.
找个 parser 用 XPath 很难么?

16

cxshun

Sep 26, 2013

其实xpath不是更方便么，直接//div[class='content']/*这个就OK啦。正则解析HTML是没办法的选择。

17

jiych

Sep 26, 2013

可以用flex

18

openclaw

Sep 26, 2013

前端方便

19

marchtea

Sep 26, 2013

用simple_html_dom来读取,再处理吧.直接弄貌似不是很好弄

About · Help · Advertise · Blog · API · FAQ · Solana · 1008 Online Highest 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 63ms · UTC 19:15 · PVG 03:15 · LAX 12:15 · JFK 15:15
♥ Do have faith in what you're doing.