目前看的在线 ocr 识别接口,myscript 和 mathpix 效果都不错
我们产品一年接口请求量大概 200-400w ,算了一下 myscript 贵的离谱,mathpix 大概一年在 20w-30w 的费用
使用在线 ocr 还有并发和带宽相关的问题需要测试
想问有没有本地化按年卖 license 的产品?进行本地化部署
1
heqing 2022-01-10 15:41:32 +08:00
现在有不少基于深度学习的 OCR 模型, 你们如果有大量的数据, 可以尝试自己训练一个试试
|
2
HashV2 OP @heqing 我们没有大量的数据集,而且我们尝试使用开源的 ocr 识别 latex 模型,找了一些数据集进行训练,识别准确率真的差太多了,基本上就是除非照着数据集的样子写,其它全错 [哭]
|
3
HashV2 OP 目前就是希望大家可以推荐一款可以本地部署、按年出售 license 或永久 license 的 ocr 数学公式的产品
实在不行可以有在线按年出售无数量限制的 sdk ,不过在线 api 需要测试一下并发 |
4
HashV2 OP https://ai.100tal.com/dataset
用的是这个里面的手写数据集 |
5
Juszoe 2022-01-10 21:35:54 +08:00
你们尝试了哪些模型呢?我看数据集有十万张图片,应该不至于一点效果没呀,可能还需要多调调参数。
我搜了下发现一个 2019 的工作,https://github.com/JianshuZhang/TAP 当时的效果打败了 MyScript 等商业公司。 团队是中科大的,如果自己搞不来的话,建议你联系他们付费购买一些技术服务。 |
6
Scirocco 2022-01-11 01:51:16 +08:00 via Android
之前个人用过百度飞桨的开源 ocr ,直接用的现成的没训练,效果还算不错
|
7
dayeye2006199 2022-01-11 03:23:33 +08:00
你们的量这么大,建议联系那些公司的销售单独谈价钱。
|
8
HashV2 OP @Juszoe 团队里没人系统学习过机器学习,都是跑起来就算成功 [无奈] ,需要研究一下,成功的话每年倒是能给公司省几十个 w
|
10
HashV2 OP @dayeye2006199 看了上面大家的回复,想自己搞搞试试了。
|