V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
PHPer233
V2EX  ›  PHP

PHP 如何将 html 文件解析成 dom 树?

  •  
  •   PHPer233 · 2018-06-07 23:29:41 +08:00 via iPhone · 3005 次点击
    这是一个创建于 2361 天前的主题,其中的信息可能已经有所发展或是发生改变。
    有一个 html 文件,为了提取文件里的某些内容,我一般是利用正则表达式,但这样做太累了,提取不同的内容要写很多正则表达式。我想把 html 文件解析成 dom 树,这样就方便提取任意元素的内容了。不知道 php 有没有方便的途径实现这样的功能?
    10 条回复    2018-06-08 16:20:15 +08:00
    yangqi
        1
    yangqi  
       2018-06-07 23:32:46 +08:00
    直接用 DOMDocument 啊
    SoulGem
        2
    SoulGem  
       2018-06-07 23:38:24 +08:00 via iPhone
    PHPer233
        3
    PHPer233  
    OP
       2018-06-07 23:42:38 +08:00 via iPhone
    @yangqi 感谢提示,我一直没有注意到这个扩展。
    Herobs
        4
    Herobs  
       2018-06-08 00:02:56 +08:00 via Android
    xpath 了解一下
    anewg
        5
    anewg  
       2018-06-08 09:01:44 +08:00
    symfony 的 DomCrawler 组件,总之别用正则。。。
    jingrui
        6
    jingrui  
       2018-06-08 09:18:39 +08:00 via iPhone
    phpquery 了解下
    zarte
        7
    zarte  
       2018-06-08 09:52:31 +08:00
    xpath,chrome 右键就可以得到公式,你应该是弄爬虫吧,注意下 js 渲染的网页你也要渲染下再提取,要不然复制出来的公式会取不到东西。
    VgV
        8
    VgV  
       2018-06-08 10:42:41 +08:00
    @zarte 怎么渲染再提取?
    zarte
        9
    zarte  
       2018-06-08 11:41:55 +08:00   ❤️ 1
    @VgV phantomjs 或者看网页源码手动写公式
    han8gui
        10
    han8gui  
       2018-06-08 16:20:15 +08:00
    phpquery 啊,或者有个开源工具 querylist

    python 建议使用 xpath
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2866 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 14:58 · PVG 22:58 · LAX 06:58 · JFK 09:58
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.