1
int64ago 2015-04-10 14:55:33 +08:00 1
前提:分割为当个字母
1、通过长宽比过滤一些 2、通过黑白像素点比值过滤一些 3、? |
2
TangMonk 2015-04-10 14:58:00 +08:00
豆瓣的好像都是单词。。看下这个点能不能入手
|
3
hao123yinlong 2015-04-10 15:00:22 +08:00
楼主,降噪、二值化后,针对处理后的图片进行字库训练,识别率可达百分之九十九点九九九。。训练很伤眼睛,自己训练的话请先买几箱眼药水备用
|
4
awanabe OP @hao123yinlong 就是不会搞图形化的那一套..才想走走别的途径..通过OCR识别..
|
7
dingyaguang117 2015-04-10 15:06:03 +08:00
LZ 我觉得我们可以加个友情链接 https://github.com/dingyaguang117/ImageRecognizeOf58
|
8
gowithwind 2015-04-10 15:13:54 +08:00
这个验证码的边缘比较强,可以先进行边缘检测吧.确定字符的位置.应该对分离字符有帮助.
对于扭曲的情况可以适当进行矫正.计算字符的重心.根据偏向做相反的调整. 建议还是使用高级点的机器学习技术. |
9
hao123yinlong 2015-04-10 15:23:42 +08:00
@awanabe OCR识别是需要根据字库(训练库)来进行识别的。豆瓣特定的字体,如果没有相应的训练库,你把图片质量做得再高,也一样识别率低
|
10
liboyue 2015-04-10 15:34:00 +08:00 via Android
要是用点深度学习的东西正确率应该会很高
参考LeNet-5,90年代商用的手写数字识别算法 |
11
superhack 2015-04-10 15:35:43 +08:00
『去掉背景杂色之后』直接切分(按垂直投影),切分之后的求出来个最小矩形闭包,之后的结果就可以作为训练集了,每个字符积累几百个,直接 KNN 算法,你的预处理效果看起来能做到单字符 85% 的正确率,五六个字符几乎能做到 3、4 次成功登录一次。
|
12
awanabe OP @dingyaguang117 哟西...思路差不多
|
14
awanabe OP @hao123yinlong 扭曲的字体确要训练
|
15
h4x3rotab 2015-04-12 15:00:29 +08:00
对于单词的话还可以利用字典提高识别率,尤其是这种严格出现在字典里的词,只要拿字典里的每个词套进来,然后计算整体的准确率,取最高就好了
|
16
pythoner 2015-05-13 14:08:57 +08:00
春节的时候我用楼主的思路做过,识别率不是特别好。
正好有两篇博客简单记录了以下,欢迎交流: http://t-y.me/p/233 |