通过 Python 有什么办法可以把一个 pdf 文件提取成一个规律的表格么？

SystemLight · 2020-03-03T05:48:44Z

说明： pdf 中含有图片，需要将图片中的内容识别出来 pdf 格式如下，每一个条码构成一行，每一行有四列包含图中的四个数据，有什么办法提取出来么

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 2289 days ago, the information mentioned may be changed or developed.

说明：

pdf 格式

10 replies • 2020-03-04 20:42:41 +08:00

gracehunter

Mar 3, 2020

pdfminer 试一下？

zhzy

Mar 3, 2020 via iPhone

你需要的是 ocr 工具

MaxTan

Mar 3, 2020

以前做过类似的，解析出来得到很多都是文本或者 html 的；如果解析后拿到还是图片那只能做图像识别

ipwx

Mar 3, 2020

先切图。你这内容这么规整，切入很容易啊。然后上 OCR 呗。

NaVient

Mar 3, 2020

这种这么规整的数字和英文用光学 OCR 很容易就识别出来了，主要的问题就是好好切图，如果一列的长度固定，PDF 大小固定连切图都不是问题了

Kakus

Mar 3, 2020

最近试用了百度 AI 的文字识别，识别率挺高。有个自定义模板识别功能，选中目标区域就可以识别了。但是你这个图上没有固定内容作参照字段，可以切片后加上参照再调用模板识别。👉https://ai.baidu.com/ai-doc/OCR/nk3h7y8y8

huruwo

Mar 3, 2020

先切分再识别

Vegetable

Mar 3, 2020

渲染成图片，剪裁，ocr

zxcvsh

Mar 4, 2020 via iPhone

分割图片 + OCR
百度搜索“二维码识别”，有很多解决方案，你这些待识别字很清晰而且没有躁点
另外楼上说的 “百度提供的 OCR 服务”也可以看看，之前用的时候，免费解析次数挺多的

SystemLight

Mar 4, 2020

@Kakus 感谢，按照您说的方法已经成功转换