使用 python pypdf2 库裁剪 PDF 页面,裁剪识别页面内容。
通过 tika 或者 pdfminer 都能识别出裁剪前的文本内容,导致识别结果有问题。
有没有大佬遇到过这个情况,怎么解决的。
1
AnroZ 2023-02-06 16:57:25 +08:00
问题:a.pdf (pypdf2 )-> b.pdf (tika|pdfminer )-> b.txt 等效于 a.pdf (tika|pdfminer )-> a.txt ??
会不会是 另存为 没覆盖? 要不贴源码分析 |