爬虫，带样式的内容

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

V2EX 提问指南

这是一个创建于 2005 天前的主题，其中的信息可能已经有所发展或是发生改变。

页面中有一些内容，我需要爬下来。但是这些内容里可能包含了文字，图片，表格等等奇怪的东西。如果不把样式也一起爬出来然后渲染，那么不带样式的内容就会很丑，而且也没法很好地自适应移动端。

所以这种情况只能用 Puppeteer 等工具保存截图了对吗？而不是获取 html 代码。

3 条回复 • 2019-08-05 16:50:30 +08:00

dcalsky

2019-08-05 16:31:21 +08:00 via Android

内容里可能还有附件，那还得做个附件检测，然后自动 download 下来

holajamc

2019-08-05 16:33:42 +08:00

之前有一家的解决方法是保留 HTML 的 DOM 结构去教所有标签属性

dcalsky

2019-08-05 16:50:30 +08:00 via Android

@holajamc 如果不带 css 的话，还是会很丑，甚至错位。