pdf 裁剪后识别 content 问题，出现裁剪前内容

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 656 天前的主题，其中的信息可能已经有所发展或是发生改变。

使用 python pypdf2 库裁剪 PDF 页面，裁剪识别页面内容。

通过 tika 或者 pdfminer 都能识别出裁剪前的文本内容，导致识别结果有问题。

有没有大佬遇到过这个情况，怎么解决的。

1 条回复 • 2023-02-06 16:57:25 +08:00

AnroZ

2023-02-06 16:57:25 +08:00

问题：a.pdf (pypdf2 ）-> b.pdf (tika|pdfminer ）-> b.txt 等效于 a.pdf (tika|pdfminer ）-> a.txt ？？
会不会是另存为没覆盖？要不贴源码分析