中文本地 ocr 识别, tesseract 有没有训练好的中文字库?

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

This topic created in 3106 days ago, the information mentioned may be changed or developed.

需要在本地使用 ocr 识别, 但是 tesseract 对中文的支持不怎么好, 查了一下需要训练中文字库。感觉有点麻烦，有没有训练好的字库？或者其他的方法可以实现本地的中文识别。

字库

中文

tesseract

OCR

16 replies • 2023-05-08 18:04:31 +08:00

wshedu

Jan 21, 2018

百度和腾讯云都有 ocr 在线识别。

goodan

Jan 21, 2018 via iPhone

@wshedu #1 你看清楚楼主说什么了吗……

woyaojizhu8

Jan 21, 2018

不存在的，中文识别只有 abbyy 文通和汉王

Genii

Jan 21, 2018 via Android

/s/1c3FuQFQ
不知道能不能用

murmur

Jan 21, 2018

训练这个东西最好是自己做除非是标准的印刷体或者直接像 1 楼说的用云服务不更好

m939594960

Jan 21, 2018

我也有类似的需求，但是都是标准的字体，有没有那种按字体训练好的

lonelygo

Jan 21, 2018

@woshichuanqilz @m939594960
如果是标准字体，用 tesseract 3.05 版本，是基于机器学习的方法而不是深度学习，自己准备数据集训练不算难。印刷体可以自己生成对应字体的 tif 文件，人工校对这个工作量不小，真训练过程很快也不难。
4.0 版本是基于 LSTM 的，算是深度学习的方法了，需要的数据集更大也会更慢，而且官方文档写的比较晦涩，需要结合代码和 3.0*的方法一起理解。
现成的，那就是 3 楼推荐的了，花钱买吧。