V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
dcalsky
V2EX  ›  问与答

爬虫,带样式的内容

  •  
  •   dcalsky · 2019-08-05 16:30:22 +08:00 via Android · 1115 次点击
    这是一个创建于 1924 天前的主题,其中的信息可能已经有所发展或是发生改变。

    页面中有一些内容,我需要爬下来。但是这些内容里可能包含了文字,图片,表格等等奇怪的东西。如果不把样式也一起爬出来然后渲染,那么不带样式的内容就会很丑,而且也没法很好地自适应移动端。

    所以这种情况只能用 Puppeteer 等工具保存截图了对吗?而不是获取 html 代码。

    3 条回复    2019-08-05 16:50:30 +08:00
    dcalsky
        1
    dcalsky  
    OP
       2019-08-05 16:31:21 +08:00 via Android
    内容里可能还有附件,那还得做个附件检测,然后自动 download 下来
    holajamc
        2
    holajamc  
       2019-08-05 16:33:42 +08:00
    之前有一家的解决方法是保留 HTML 的 DOM 结构去教所有标签属性
    dcalsky
        3
    dcalsky  
    OP
       2019-08-05 16:50:30 +08:00 via Android
    @holajamc 如果不带 css 的话,还是会很丑,甚至错位。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1331 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 23:55 · PVG 07:55 · LAX 15:55 · JFK 18:55
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.