页面中有一些内容,我需要爬下来。但是这些内容里可能包含了文字,图片,表格等等奇怪的东西。如果不把样式也一起爬出来然后渲染,那么不带样式的内容就会很丑,而且也没法很好地自适应移动端。
所以这种情况只能用 Puppeteer 等工具保存截图了对吗?而不是获取 html 代码。
1
dcalsky OP 内容里可能还有附件,那还得做个附件检测,然后自动 download 下来
|
2
holajamc 2019-08-05 16:33:42 +08:00
之前有一家的解决方法是保留 HTML 的 DOM 结构去教所有标签属性
|