V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
mikewang
V2EX  ›  macOS

macOS 识别图片文字的效果是不是很好?

  •  
  •   mikewang · 2021-12-09 18:53:35 +08:00 · 2233 次点击
    这是一个创建于 1081 天前的主题,其中的信息可能已经有所发展或是发生改变。

    试了一下 预览 app ,好像很多文字都能自动识别,只有一些复杂背景并且颜色反差比较小的才难以识别出来。
    是不是 Windows 就不行呢?
    鸿蒙呢?(狗头)


    第 1 条附言  ·  2021-12-09 19:29:53 +08:00

    问题联动:/t/820234 [Python 识别图片文字的效果是不是很差?]

    14 条回复    2021-12-11 21:23:21 +08:00
    zhouwb
        1
    zhouwb  
       2021-12-09 19:17:17 +08:00 via iPhone
    识别还行吧,不算特别好的,但也不差,关键是方便啊,预览能直接拷贝文字链接不要太爽,工作快捷了很多
    ynyounuo
        2
    ynyounuo  
       2021-12-09 19:33:42 +08:00
    比较出众的是多语言混排识别,我试过中英德语混排的照片是可以比较好的分别做出识别的

    目前中文识别还不支持 language correction 所以实际上效果是不如其他支持的印欧语系的语言的
    AndyZhuAZ
        3
    AndyZhuAZ  
       2021-12-09 20:42:17 +08:00
    mikewang
        4
    mikewang  
    OP
       2021-12-09 21:16:55 +08:00
    #2 @ynyounuo 可能和中文的分词有难度,或者特殊用法比较多有关吧。有种感觉腾讯的 OCR 有纠错功能,因为它有时识别错误还能变成另一个词组,不是无意义的单字...

    #3 @AndyZhuAZ 笑死,不过官方还不支持日文吧。Google 了一下 https://s2.loli.net/2021/12/09/6lormCKL5hXZ3Af.png
    AndyZhuAZ
        5
    AndyZhuAZ  
       2021-12-09 22:42:52 +08:00
    @mikewang 但是它能识别出日文字形的汉字和の,我不理解
    YuiTH
        6
    YuiTH  
       2021-12-10 01:41:58 +08:00
    @AndyZhuAZ 一般来说,这种模型的语料都不会是“纯 X 文”的,就像英文语料里肯定会出现“Café”,中文语料里混入一些の也可以理解。
    具体来说,我们做自然语言生成都用到一个词表,词表是用这个语言的语料生成的,语料可能来源于 wiki 页面啊搜索引擎爬取什么的。看这个语言里面所有的字哪些出现在一起的可能性比较高,就会变成一个词。出现频率过低的字符可能会被扔掉,所以用中文词表可能就很难识别出奇奇怪怪的阿拉伯什么的。更别提语料里完全没见过的语言。
    虽然有多语言的模型,词表会相应的覆盖所有语言。但如果规定了语言,我们可能就会指定使用对应语言的词表模型来做 OCR ,效果更好一些。
    所以为什么能识别の,就是因为中文语料里の最常见,比其他假名都常见,词表里有这个字符,模型也学会了这个字符的造型。
    AyaFrost
        7
    AyaFrost  
       2021-12-10 03:08:41 +08:00
    原来不支持日文,上次提取了半天还以为姿势不对。
    最需要的就是群友发日文 meme 图的时候提取出来看看到底说的什么
    whusnoopy
        8
    whusnoopy  
       2021-12-10 08:01:26 +08:00
    跟联动帖一样,标题和立场设偏了

    不是 macOS 的文字识别有多强,是苹果的 OCR 技术有多强,并且在 iOS 15 和 macOS Monterey 上用系统原生应用自带了

    Windows 不确定现在系统自带原生应用识别如何,很久以前 OneNote 和 PowerPoint 就有相当可用的识别能力了

    歪楼联动下,https://techcommunity.microsoft.com/t5/azure-ai-blog/azure-text-to-speech-updates-at-build-2021/ba-p/2382981 这个 TTS 语音输出能力,该算微软的,还是 Azure 的,还是 Windows 或者谁的?
    xing7673
        9
    xing7673  
       2021-12-10 10:47:05 +08:00 via iPhone
    @whusnoopy 等 edge 出一个我就认同你这段话。现在微软算法强但是系统集成太慢了。
    agagega
        10
    agagega  
       2021-12-10 11:44:37 +08:00
    为啥我预览里没法 OCR ,要浏览器里打开图片才行
    liw2756
        11
    liw2756  
       2021-12-10 21:56:29 +08:00 via iPhone
    一般般,看人品,有的时候网页截图都有部分识别不出来
    westtide
        12
    westtide  
       2021-12-11 10:56:36 +08:00
    楼主考哪里啊
    mikewang
        13
    mikewang  
    OP
       2021-12-11 19:33:41 +08:00
    #6 @YuiTH 解释得很专业!
    #10 @agagega 预览的菜单栏中要选择[工具] - [文本选择],要 OCR 的话
    #12 @westtide 南京某高校,这不是重点...
    YuiTH
        14
    YuiTH  
       2021-12-11 21:23:21 +08:00
    @whusnoopy 微软 Windows 和 Azure 不是一个 BG ,这篇文章是 Azure AI 的 Blog 的,应该和 Windows 关系不大。至于背后模型,有可能是 Azure AI 自己的团队做的,也可能是和 MSR 的联合作品。总之肯定是微软的。

    @mikewang 这毕竟是我过去一年的本职工作: ) NLP 的入门门槛确实比 CV 要高一些,在送入模型以前有各种奇奇怪怪的预处理。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   950 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 22:45 · PVG 06:45 · LAX 14:45 · JFK 17:45
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.