V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
bluestonemds
V2EX  ›  问与答

电视猫的电视节目单页面抓取不全

  •  
  •   bluestonemds · Jan 25, 2016 · 3569 views
    This topic created in 3745 days ago, the information mentioned may be changed or developed.

    网址: http://www.tvmao.com/program/CCTV-CCTV2-w1.html
    需抓取的元素内容:<ul id="pgrow"></ul>中的全部内容。
    抓取工具: php 的 file_get_contents 函数。

    问题:只能抓取到<li id="noon">午间节目</li>,后面的内容就没有了。

    请问这是什么情况吗?如何解决?感谢。

    4 replies    2016-01-26 15:59:18 +08:00
    bluestonemds
        1
    bluestonemds  
    OP
       Jan 25, 2016
    dom 树中有内容,源码中没有。
    blueset
        2
    blueset  
       Jan 25, 2016
    这个是通过其他请求的 API 读取出来的。
    bluestonemds
        3
    bluestonemds  
    OP
       Jan 26, 2016
    那么请问就没有办法了吗?
    bdbai
        4
    bdbai  
       Jan 26, 2016
    我以为是 **只** 抓取到午间节目呢,废了好大劲抓前面的。后面简单分析了一下,它是在页面加载完成后执行了一个 AJAX 请求(见 IIFE.js ),请求的参数是经过加密的,算法见 encrypt.js 。你把那个算法转换成 PHP 再发请求,应该就能得到结果了。

    https://gist.github.com/bdbai/791467fd6d56b5718886
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1196 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 18:02 · PVG 02:02 · LAX 11:02 · JFK 14:02
    ♥ Do have faith in what you're doing.