1
handuo 2022-04-02 23:21:37 +08:00 via Android
我不是做这方面的,但是知道整个过程不只是 ocr, 需要预处理,文本检测,布局理解以及字符识别。感觉对于 latex 公式难点在于布局的多义性和歧义性,很多公式布局比较复杂。而主流学术界和工程界更重视复杂环境的文本检测,不同噪声下的字符识别,因此需要自己设计网络,采集数据和训练模型,有一定门槛
|
2
PeterD 2022-04-02 23:29:20 +08:00 2
现在用 Transformer 已经可以实现很好的效果了,参考下面的项目
https://github.com/lukas-blecher/LaTeX-OCR https://arxiv.org/abs/2007.02517 |
3
ynyounuo 2022-04-03 02:08:18 +08:00 via iPhone
mathpix 刚涨价并且限制普通用户使用次数,我怀疑你是故意这个时候发的,哈哈哈
普通 LaTeX 数学公式 OCR 确实并不难,如果有扫描图形直接生成逻辑标准的对应 PGF/TikZ 代码才是厉害,目前 quiver 画图手动画图转换体验还行 |
4
thedrwu 2022-04-03 04:19:45 +08:00 via Android
排版和布局(例如横纵位置、kerning 、断行和对齐的位置、math[clr]lap 的处理等等)才是 LaTeX 公式的灵魂。即使同一个公式内容,换成另一种字体也需要调整处理的方式。毕竟 LaTeX 不止是公式编辑器更是个排版软件。
生硬地 reproduce 布局最后只会成为各种手动的 box 。 |
5
thedrwu 2022-04-03 04:25:41 +08:00 via Android
接上文,OCR 复杂一点公式可能需要算法根据上下文“理解”公式的内在意义,才能给出合理的等价排版代码
|
6
shadows 2022-04-03 11:48:11 +08:00
mathpix 可以找一些调用它 api 的软件使用,api 的免费计划足够使用的,不处理 pdf 的话,就只有 rate limit (新开的 api 是 50/min ,我之前开的是 200/min ),没有次数限制
|
7
shadows 2022-04-03 22:03:27 +08:00
补充#7 是每月前 1K 次请求免费
|