需要在本地使用 ocr 识别, 但是 tesseract 对中文的支持不怎么好, 查了一下需要训练中文字库。感觉有点麻烦,有没有训练好的字库?或者其他的方法可以实现本地的中文识别。
需要在本地使用 ocr 识别, 但是 tesseract 对中文的支持不怎么好, 查了一下需要训练中文字库。感觉有点麻烦,有没有训练好的字库?或者其他的方法可以实现本地的中文识别。
1
wshedu Jan 21, 2018
百度和腾讯云都有 ocr 在线识别。
|
3
woyaojizhu8 Jan 21, 2018
不存在的,中文识别只有 abbyy 文通和汉王
|
4
Genii Jan 21, 2018 via Android
/s/1c3FuQFQ
不知道能不能用 |
5
murmur Jan 21, 2018
训练这个东西最好是自己做 除非是标准的印刷体 或者直接像 1 楼说的用云服务不更好
|
6
m939594960 Jan 21, 2018
我也有类似的需求,但是都是标准的字体,有没有那种按字体训练好的
|
7
lonelygo Jan 21, 2018
@woshichuanqilz @m939594960
如果是标准字体,用 tesseract 3.05 版本,是基于机器学习的方法而不是深度学习,自己准备数据集训练不算难。印刷体可以自己生成对应字体的 tif 文件,人工校对这个工作量不小,真训练过程很快也不难。 4.0 版本是基于 LSTM 的,算是深度学习的方法了,需要的数据集更大也会更慢,而且官方文档写的比较晦涩,需要结合代码和 3.0*的方法一起理解。 现成的,那就是 3 楼推荐的了,花钱买吧。 |
8
WispZhan Jan 21, 2018
tesseract 这玩意,做中文识别很淡疼的。针对不同字体训练库最后弄出来很大很大。特别是字体多了之后……
|
10
SatanFu Jan 22, 2018
https://github.com/tesseract-ocr/tessdata
这里有一些训练好的数据 |
12
lonelygo Jan 22, 2018
|
13
faicker Jan 22, 2018
4.0 最新的 master,用的这里的已经训练好的字库,https://github.com/tesseract-ocr/tessdata_best
识别率感觉还行。 |
14
woshichuanqilz OP @faicker 用了, 好一点但是也比较不理想, 谢谢~
|
15
sayyoume Nov 12, 2018
请问 windows 下 你们是怎么编译通过的?翻墙?
|
16
craftx May 8, 2023
实测 https://github.com/tesseract-ocr/tessdata_best 的中文训练集较理想,基本满足需求
|