要支持微信公众号 知乎 b 站 今日头条 这几家文章的,前端传给后端一个链接,后端去解析 html? 然后 html 转 word?转 markdown ?然后怎么返给前端,让前端显示在编辑器里...这个是不是有点难,大佬们
1
66beta 2022-03-01 15:32:42 +08:00
洗稿?
|
3
lcy630409 2022-03-01 15:37:28 +08:00 1
应该可以吧
把文字带 div 直接截取过去,然后把所有的 css 保存下来 生成新的 css 文件 地址也传过去? 样式肯定不能 100%还原,得手动编辑 或者只传文字,样式让前台重新编辑? |
4
janus77 2022-03-01 15:41:50 +08:00 1
|
5
saigo 2022-03-01 15:42:33 +08:00 2
|
6
skiy 2022-03-01 15:43:07 +08:00 1
这个不难啊。把 URL 提交给后端服务器 API ,API 根据域名判断哪个平台的,CURL 获取该页面的数据,再根据该平台的规则将里面的内容提取出来,加工(可以后端直接加工后返回数据;或者组合成 json 返回给前端,前端自己生成相关格式的数据)
|
7
gadfly3173 2022-03-01 15:43:30 +08:00 1
这个需求就是写爬虫,解析成你们编辑器用的格式。只是很麻烦,难度可能也就是反爬怎么处理
|
8
murmur 2022-03-01 15:46:38 +08:00 1
这不就是手动洗稿么
|
10
xingshu1990 2022-03-01 15:49:45 +08:00 1
类似 5118 一样,采集多平台指定关键词内容,混编内容用.
|
11
GrayXu 2022-03-01 16:41:41 +08:00 1
[simpread]( https://github.com/Kenshin/simpread)
> 为了达到完美的阅读模式这个小目标 ,我适配了 数百种类型 的网站,因此诞生了简悦。 这个工具可以实现你说的输入 html ,给出一个 markdwon 。本质上还是在做类似爬虫的工作。 |
12
chezhe17 2022-03-01 18:57:42 +08:00
@shapl 微信公众号需要自定义规则,因为 DOM 结构特殊,可以参考 https://github.com/Ark-ave/chrome-extention/blob/main/src/chrome/content.ts#L22 ,我之前做书签应用有类似实现,用的是这个库 https://github.com/mixmark-io/turndown 来转 HTML 到 Markdown
|
15
shaojz2005 2022-03-02 09:22:59 +08:00
很多微信公众号的文章都是用第三方编辑器排版的,自带很多特殊排版格式,思路就是找到公众号文章正文对应的那个 div ,然后整个拿下来放到富文本编辑器里,对文章里的图片做远程下载上传服务器(因为防盗链),就可以了。
别的平台应该相对简单很多,因为排版格式没那么复杂。 |
16
dany813 2022-03-02 18:16:43 +08:00
没了解过
|
17
linsiqing2008 2023-06-01 16:30:03 +08:00
您好题主,请问实现了吗?有什么好的方案没? 楼上说的看了一遍都不贴合需求。
现在我这也有一个需求,就是在后台里,根据微信文章链接,一键导入 微信文章及资源下载到本地资源存储上。 求实现方法;谢谢。 |