有办法将 pdf 转成 markdown 吗？

This topic created in 1057 days ago, the information mentioned may be changed or developed.

试了下网上的几个工具，结果出来都不太理想。

pdf 都是一些产品说明介绍，有各种图表图片等，排版复杂没有规律。

想着能不能把产品 pdf 的主要内容，表格之类的转成 markdown ，方便后续 embedding 喂给 chatgpt 。

又或者 pdf to markdown 这一步需要单独训练个 AI 出来？如何开始，大家有思路吗？

19 replies • 2023-08-25 16:49:57 +08:00

me221

Aug 25, 2023

pdf 可以直接 embedding 给 ChatGPT 呀

SWALLOWW

Aug 25, 2023

@me221 怎么嵌入啊，怎么给文件，图片这些信息啊

elevioux

Aug 25, 2023

@me221 如果我理解没问题的话，embedding 本身只是用于语义搜索，搜索出来的结果必须要有对应的原文本才好给到 chatgpt 处理。如果 pdf 转 markdown 不理想的话，chatgpt 拿到文本也是很难理解。还是我思路有问题？望指教

fzls

Aug 25, 2023

@elevioux #3 下面这个网站可以直接喂 pdf

https://www.chatpdf.com/

yekern

Aug 25, 2023

pdf 转 html 转 markdown 不可以么

elevioux

Aug 25, 2023

@fzls 知道有这个网站，试了一下，有些问题还是回答不了，说文本没有提到。。。。

elevioux

Aug 25, 2023

@yekern 有想到过，也试过，还是表格形式的数据难以转换。pdf 的排版太没规律了，我们人眼看起来是个表格，转成 html ，就成了各种 div 的拼凑。

c2const

Aug 25, 2023

1.PDF 包含的信息太多了，比如嵌入私有字体都可以，想保留格式转化没啥好办法 :(
2.可以直接把所有 PDF 打印成高质量图片，markdown 贴图 :)
3.精细一点，可以把简单格式的文字转 markdwon ，不方便转表格图片其它格式就用图片，但是不知道有没有现成的自动化程序 :(

gitignore

Aug 25, 2023

找个大学生帮你手工转

me221

Aug 25, 2023

@elevioux #3 你的思路没问题。是我没考虑 PDF 中的图片问题，可以用 OCR 把 PDF 转为 Docx 格式，然后 embedding

elevioux

Aug 25, 2023

@c2const 其实并不是想要用 markdown 来还原 pdf ，只是用 markdown 来保留 pdf 的关键信息和表格，方便 chatgpt 理解。

elevioux

Aug 25, 2023

@me221 试过百度的 padddle ，错别字有点多（ pdf 主要是繁体），当然也可能是我其它参数没设置好。目前主要想法是自己训练一个 AI 来识别文档的内容，如标记哪里是表格，哪里是大段文字等，再用 pymupdf 等提取文字再合成 markdown 。不过苦于对 AI 不熟悉，用 pytorch 写了个 demo 就没有然后了，不知如何开始。