一个中文扫描版 PDF ,我用 OCR 软件,比如 AABY Fine Reader 转换成了可以复制文字的版本,但是对于这种版本,使用 calibre 转换成 mobi 或者 epub 格式,都是失败的。
我觉得可能的原因是,OCR 软件并没有改变 PDF 的外观。每个文字仍然是原来的图像,只不过可以复制。这种和纯文字版非扫描版的还是有区别。
如果想转化成移动设备友好的格式,该怎么做呢?
1
Maipol 2022-06-03 22:57:18 +08:00
之前大概了解过,pdf 和 epub 底层好像完全是两个东西吧
|
2
ygchy 2022-06-03 23:42:52 +08:00 via iPhone
扫描版 PDF 用 OCR 识别出来的文本准确度还是比较低的吧,但如果能接受……或许可以先把 PDF 转换成 Word ,然后再用 Word 文档制作 epub ?新版本的 Word 可以直接选择 PDF 文档打开进行转换。但总的来说这个过程要不得花很多时间校对,要不就只能忍受 OCR 出来有大量错误的文本……自己阅读用的话感觉并划不来。
|
3
whileFalse 2022-06-04 03:03:14 +08:00 via iPhone
AABY 只能导出 pdf 吗?能不能导出 word
|
4
shinsekai 2022-06-04 07:02:48 +08:00 via Android
foxit 高级 pdf 编辑器可以直接 ocr 成“可编辑的文字”然后支持导出 html 格式,转 epub 应该就方便了
|
5
i3x 2022-06-04 07:36:16 +08:00 via Android
@ygchy 印刷体不至于。哪怕直接扫书。。。
十几年前的打印机光盘内置的汉王我觉得都可以接受。。。正常的书没什么,包括图的注那么小的都能认,除了书压不平可能里面一排字不认。。。几百个字错一两个还好了。 楼主如果是安卓之类的移动设备就直接缩放 pdf 对付着看吧。。。。如果是电纸书,劝退。。。。这种大 pdf 打开可能就死机了。转成其他的格式整理工作量太大 |
6
xyjincan 2022-06-04 08:15:43 +08:00
orc_pdf 原理,应该是在原有 pdf 基础上添加了一层不可见的可复制逐个字符,不具备原生 pdf 文本的重排版能力
|
8
ltkun 2022-06-04 11:07:13 +08:00 via Android
koreader 了解一下
|
9
kongkx 2022-06-04 12:52:45 +08:00 via iPhone
想办法导出 html 。校对是个问题,保留段落排版的格式应该现在有工具可以做,之前看到的这个单一图片处理的 https://www.v2ex.com/t/851543?p=2 。
|
10
felixcode 2022-06-04 13:39:38 +08:00
可以用 abbyy fine reader 这样的软件导出成 word 文档,再做转换。
|