如何提取一个 pdf 文件里面, 一个表格的信息?

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

This topic created in 3002 days ago, the information mentioned may be changed or developed.

如何提取一个 pdf 文件里面, 一个表格的信息?

我有一个 pdf 文件, 里面的有一个类似这样的表格, 除了这个表格还有其他很多没有写在表格里面的文字,

我现在想做的就是提取这个表格里里面的信息, 这个怎么做?

我湿了 pdfminer, 里面提取的文字顺序尤其是在提取表格内容的时候, 或者在表格里面有换行的情况的时候, 变得很乱无法统一提取信息。请问有没有什么好点的方法?

20180423164856

表格

提取

PDF

里面

19 replies • 2018-07-15 22:05:41 +08:00

yidinghe

PRO

Apr 23, 2018

理论上 PDF 里面没有表格的概念，只有线、框、文字，所以你可能要计算坐标去判断一个字是否在表格中。

yo0o0o0

Apr 23, 2018

ocr 识别了解一下

CodingPuppy

Apr 23, 2018 via Android

最近也要做这么个需求，表格比你这还复杂～ pdfminer 看了下还没试～感觉 ocr 也有局限～还在搜索资料…

woshichuanqilz

Apr 23, 2018

@CodingPuppy OCR 肯定不行, pdfminer 不行, pdfminer 是无格式的, 无法探知一个字段是不是在表格里面, 我看一楼哥们的方法应该是比较有效的, 只是感觉有点难。。。

我刚看了一下 pdftable, 里面示例都用不了。。。

读文件的函数感觉都没写完。

http://7xpvdr.com1.z0.glb.clouddn.com/95885595-9dc8-4753-9ab1-e023daa27bef0423171652.png