ocr 识别 latex 公式的难度是在哪？

This topic created in 1557 days ago, the information mentioned may be changed or developed.

我记得有款工具叫 math 什么，可以识别 latex 公式，挺好用的，现在好像收费了，免费客户端好像是一个月 50 次。

这个其实对于普通用户偶尔用一两次也是够了。

不过我的问题是，这种 ocr 功能的难度，或者说资源花费主要是在哪？感觉现在 AI 技术也发展得不错，再加上 latex 公式一般都是比较标准的字体，符号也有限，而且有很多人用，就有很多的训练集，感觉模型应该不是问题。

LaTeX

公式

OCR

Math

7 replies • 2022-04-03 22:03:27 +08:00

handuo

Apr 2, 2022 via Android

我不是做这方面的，但是知道整个过程不只是 ocr, 需要预处理，文本检测，布局理解以及字符识别。感觉对于 latex 公式难点在于布局的多义性和歧义性，很多公式布局比较复杂。而主流学术界和工程界更重视复杂环境的文本检测，不同噪声下的字符识别，因此需要自己设计网络，采集数据和训练模型，有一定门槛

PeterD

Apr 2, 2022

现在用 Transformer 已经可以实现很好的效果了，参考下面的项目

https://github.com/lukas-blecher/LaTeX-OCR

https://arxiv.org/abs/2007.02517

ynyounuo

Apr 3, 2022 via iPhone

mathpix 刚涨价并且限制普通用户使用次数，我怀疑你是故意这个时候发的，哈哈哈

普通 LaTeX 数学公式 OCR 确实并不难，如果有扫描图形直接生成逻辑标准的对应 PGF/TikZ 代码才是厉害，目前 quiver 画图手动画图转换体验还行

thedrwu

Apr 3, 2022 via Android

排版和布局（例如横纵位置、kerning 、断行和对齐的位置、math[clr]lap 的处理等等）才是 LaTeX 公式的灵魂。即使同一个公式内容，换成另一种字体也需要调整处理的方式。毕竟 LaTeX 不止是公式编辑器更是个排版软件。
生硬地 reproduce 布局最后只会成为各种手动的 box 。

thedrwu

Apr 3, 2022 via Android

接上文，OCR 复杂一点公式可能需要算法根据上下文“理解”公式的内在意义，才能给出合理的等价排版代码

shadows

Apr 3, 2022

mathpix 可以找一些调用它 api 的软件使用，api 的免费计划足够使用的，不处理 pdf 的话，就只有 rate limit （新开的 api 是 50/min ，我之前开的是 200/min ），没有次数限制

shadows

Apr 3, 2022

补充#7 是每月前 1K 次请求免费