joetao123
V2EX  ›  问与答

像 36 氪网站这样的帖子,该如何采集?

  •  
  •   joetao123 · Sep 27, 2022 · 2218 views
    This topic created in 1357 days ago, the information mentioned may be changed or developed.

    比如 https://www.36kr.com/p/1932814869170564 ,通过访问获取的是 js 和一些编码信息,没法通过 jsoup 这样的工具去解析 html 内容。

    3 replies    2022-09-27 11:28:59 +08:00
    xiao109
        1
    xiao109  
       Sep 27, 2022
    跟豆瓣一样执行他的解码 js 文件获取实际的编码信息,不然就用无头浏览器然浏览器去执行 js 渲染一次。
    SleepyRaven
        3
    SleepyRaven  
       Sep 27, 2022
    研究了一下,Sources 面板打开 app.[hash].js 可以看到 window.initialState.state 的 AES.decrypt 信息
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   6137 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 48ms · UTC 02:57 · PVG 10:57 · LAX 19:57 · JFK 22:57
    ♥ Do have faith in what you're doing.