扫描版 PDF 使用 OCR 软件转换成可复制版本的 PDF 之后，如何再转换成 epub 等移动设备可阅读的版本？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 1389 天前的主题，其中的信息可能已经有所发展或是发生改变。

一个中文扫描版 PDF ，我用 OCR 软件，比如 AABY Fine Reader 转换成了可以复制文字的版本，但是对于这种版本，使用 calibre 转换成 mobi 或者 epub 格式，都是失败的。

我觉得可能的原因是，OCR 软件并没有改变 PDF 的外观。每个文字仍然是原来的图像，只不过可以复制。这种和纯文字版非扫描版的还是有区别。

如果想转化成移动设备友好的格式，该怎么做呢？

PDF

OCR

转换

扫描

10 条回复 • 2022-06-04 13:39:38 +08:00

Tuwofie

2022 年 6 月 3 日

之前大概了解过，pdf 和 epub 底层好像完全是两个东西吧

ygchy

2022 年 6 月 3 日 via iPhone

扫描版 PDF 用 OCR 识别出来的文本准确度还是比较低的吧，但如果能接受……或许可以先把 PDF 转换成 Word ，然后再用 Word 文档制作 epub ？新版本的 Word 可以直接选择 PDF 文档打开进行转换。但总的来说这个过程要不得花很多时间校对，要不就只能忍受 OCR 出来有大量错误的文本……自己阅读用的话感觉并划不来。

whileFalse

2022 年 6 月 4 日 via iPhone

AABY 只能导出 pdf 吗？能不能导出 word

shinsekai

2022 年 6 月 4 日 via Android

foxit 高级 pdf 编辑器可以直接 ocr 成“可编辑的文字”然后支持导出 html 格式，转 epub 应该就方便了

i3x

2022 年 6 月 4 日 via Android

@ygchy 印刷体不至于。哪怕直接扫书。。。
十几年前的打印机光盘内置的汉王我觉得都可以接受。。。正常的书没什么，包括图的注那么小的都能认，除了书压不平可能里面一排字不认。。。几百个字错一两个还好了。

楼主如果是安卓之类的移动设备就直接缩放 pdf 对付着看吧。。。。如果是电纸书，劝退。。。。这种大 pdf 打开可能就死机了。转成其他的格式整理工作量太大