需要在本地使用 ocr 识别, 但是 tesseract 对中文的支持不怎么好, 查了一下需要训练中文字库。感觉有点麻烦,有没有训练好的字库?或者其他的方法可以实现本地的中文识别。
1
wshedu 2018-01-21 14:07:43 +08:00
百度和腾讯云都有 ocr 在线识别。
|
3
woyaojizhu8 2018-01-21 14:24:02 +08:00
不存在的,中文识别只有 abbyy 文通和汉王
|
4
Genii 2018-01-21 16:27:50 +08:00 via Android
/s/1c3FuQFQ
不知道能不能用 |
5
murmur 2018-01-21 16:51:10 +08:00
训练这个东西最好是自己做 除非是标准的印刷体 或者直接像 1 楼说的用云服务不更好
|
6
m939594960 2018-01-21 19:03:49 +08:00
我也有类似的需求,但是都是标准的字体,有没有那种按字体训练好的
|
7
lonelygo 2018-01-21 19:50:03 +08:00
@woshichuanqilz @m939594960
如果是标准字体,用 tesseract 3.05 版本,是基于机器学习的方法而不是深度学习,自己准备数据集训练不算难。印刷体可以自己生成对应字体的 tif 文件,人工校对这个工作量不小,真训练过程很快也不难。 4.0 版本是基于 LSTM 的,算是深度学习的方法了,需要的数据集更大也会更慢,而且官方文档写的比较晦涩,需要结合代码和 3.0*的方法一起理解。 现成的,那就是 3 楼推荐的了,花钱买吧。 |
8
WispZhan 2018-01-21 20:19:15 +08:00
tesseract 这玩意,做中文识别很淡疼的。针对不同字体训练库最后弄出来很大很大。特别是字体多了之后……
|
9
zonghua 2018-01-21 21:03:16 +08:00 via iPhone
|
10
SatanFu 2018-01-22 10:15:10 +08:00
https://github.com/tesseract-ocr/tessdata
这里有一些训练好的数据 |
12
lonelygo 2018-01-22 12:35:00 +08:00
|
13
faicker 2018-01-22 13:29:34 +08:00
4.0 最新的 master,用的这里的已经训练好的字库,https://github.com/tesseract-ocr/tessdata_best
识别率感觉还行。 |
14
woshichuanqilz OP @faicker 用了, 好一点但是也比较不理想, 谢谢~
|
15
sayyoume 2018-11-12 18:14:03 +08:00
请问 windows 下 你们是怎么编译通过的?翻墙?
|
16
craftx 2023-05-08 18:04:31 +08:00
实测 https://github.com/tesseract-ocr/tessdata_best 的中文训练集较理想,基本满足需求
|