first chapter................1
introduction.............2
so.......................4
dfuh.................5
second chapter...............10
我现在有个需求是,识别一个 pdf 的目录,我现在通过 py 脚本已经知道了每个标题是啥了,但是不知道他们这些标题分别的级别。它大概长这个样子。里面都是英文单词或数字。
从肉眼上去看,是有缩进的。
但如果用鼠标去框住的话,这些二级标题或三级标题前面,是没有空格的。反正就是框不住 前面这些“肉眼看起来有的空格”。但其他符号都是可以框住的。
我用的 PDFminer 库,这个库是没法识别到缩进的,总是把前面的空格去掉。(当然也或许是我用的不对)
另外一个思路就是:我用一个 OCR 库,它帮我识别出来不同的缩进。所以想问各位 v 友有这种库吗?
1
mhycy 2023-09-11 12:38:00 +08:00
建议找找 AI 相关的 OCR 方案
|
2
iOCZ 2023-09-11 12:39:42 +08:00
缩进其实不是文本的范畴,是文本框位置大小了,所以你要找找有没有库能提供这些信息
|
3
Sirius8 2023-09-11 13:44:32 +08:00
百度 OCR+chatgpt 语义识别,目前在用,还可以
|
4
GGMM 2023-09-11 13:49:51 +08:00
我之前用过 Paddle-OCR ,它其中一套流程是这样的:文字框检测,得到词条 -> 词条文字方向判断(横 or 竖)-> 对词条进行文字识别。可能可以对文字框检测这一步加一些条件进行缩进划分。
|
5
amiwrong123 OP @iOCZ #2
好像 py 库 pdfminer 本身有这个功能,回头我去试试。 |