V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
zxCoder
V2EX  ›  问与答

ocr 识别 latex 公式的难度是在哪?

  •  
  •   zxCoder · Apr 2, 2022 · 2773 views
    This topic created in 1496 days ago, the information mentioned may be changed or developed.
    我记得有款工具叫 math 什么,可以识别 latex 公式,挺好用的,现在好像收费了,免费客户端好像是一个月 50 次。

    这个其实对于普通用户偶尔用一两次也是够了。

    不过我的问题是,这种 ocr 功能的难度,或者说资源花费主要是在哪?感觉现在 AI 技术也发展得不错,再加上 latex 公式一般都是比较标准的字体,符号也有限,而且有很多人用,就有很多的训练集,感觉模型应该不是问题。
    7 replies    2022-04-03 22:03:27 +08:00
    handuo
        1
    handuo  
       Apr 2, 2022 via Android
    我不是做这方面的,但是知道整个过程不只是 ocr, 需要预处理,文本检测,布局理解以及字符识别。感觉对于 latex 公式难点在于布局的多义性和歧义性,很多公式布局比较复杂。而主流学术界和工程界更重视复杂环境的文本检测,不同噪声下的字符识别,因此需要自己设计网络,采集数据和训练模型,有一定门槛
    PeterD
        2
    PeterD  
       Apr 2, 2022   ❤️ 2
    现在用 Transformer 已经可以实现很好的效果了,参考下面的项目

    https://github.com/lukas-blecher/LaTeX-OCR

    https://arxiv.org/abs/2007.02517
    ynyounuo
        3
    ynyounuo  
       Apr 3, 2022 via iPhone
    mathpix 刚涨价并且限制普通用户使用次数,我怀疑你是故意这个时候发的,哈哈哈

    普通 LaTeX 数学公式 OCR 确实并不难,如果有扫描图形直接生成逻辑标准的对应 PGF/TikZ 代码才是厉害,目前 quiver 画图手动画图转换体验还行
    thedrwu
        4
    thedrwu  
       Apr 3, 2022 via Android
    排版和布局(例如横纵位置、kerning 、断行和对齐的位置、math[clr]lap 的处理等等)才是 LaTeX 公式的灵魂。即使同一个公式内容,换成另一种字体也需要调整处理的方式。毕竟 LaTeX 不止是公式编辑器更是个排版软件。
    生硬地 reproduce 布局最后只会成为各种手动的 box 。
    thedrwu
        5
    thedrwu  
       Apr 3, 2022 via Android
    接上文,OCR 复杂一点公式可能需要算法根据上下文“理解”公式的内在意义,才能给出合理的等价排版代码
    shadows
        6
    shadows  
       Apr 3, 2022
    mathpix 可以找一些调用它 api 的软件使用,api 的免费计划足够使用的,不处理 pdf 的话,就只有 rate limit (新开的 api 是 50/min ,我之前开的是 200/min ),没有次数限制
    shadows
        7
    shadows  
       Apr 3, 2022
    补充#7 是每月前 1K 次请求免费
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3685 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 183ms · UTC 00:39 · PVG 08:39 · LAX 17:39 · JFK 20:39
    ♥ Do have faith in what you're doing.