V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
quietjosen
V2EX  ›  分享创造

我花了一天,做了一款和「百度」比肩的 OCR 图片识字工具 iText

  •  
  •   quietjosen ·
    atjason · 2017-11-13 08:31:08 +08:00 · 14979 次点击
    这是一个创建于 2565 天前的主题,其中的信息可能已经有所发展或是发生改变。

    这是我第 7 款 macOS 产品了:iText

    iText 是一款 从图片中识别文字 的 OCR 工具。

    • 集成百度深度学习算法(所以可以和百度 PK😂),识别结果惊人的准确
    • 配合截图、拖拽、选择图片文件等方式,操作非常便利

    通过截图识别

    选择屏幕任意区域,立即识别其中的文字。

    配合快捷键,截图更方便。默认快捷键为 ⇧⌘1;当然,你可以在 iText 偏好设置中修改。

    通过拖拽识别

    比如,你在网上看到了一张图片、或者本地有个图片文件,都可以拖拽至 iText 菜单栏图标进行识别。

    通过选择图片文件识别

    当然,你也可以在 iText 菜单中选择图片文件进行识别。

    下载

    你会发现,对于 看扫描版 PDF 文件、登录才能复制文字的网页、对方以手机截图的方式发电话号码、等场景,iText 快速识字的功能,很有用、也很好用。

    目前,iText 还处于封闭内测期。如需体验,请联系:[email protected]

    第 1 条附言  ·  2017-11-13 19:52:12 +08:00
    求:有没有设计师朋友想给 iText 设计个脸面(Logo)啊?谢谢 😀🤝
    第 2 条附言  ·  2017-11-30 19:49:59 +08:00

    iText 已上架 Mac App Store,点此下载

    89 条回复    2018-01-20 10:13:27 +08:00
    Willjim
        1
    Willjim  
       2017-11-13 08:38:27 +08:00 via Android
    哇,发现你特别喜欢通过状态栏做文章啊!东西感觉不错。
    ixixixe2
        2
    ixixixe2  
       2017-11-13 08:42:07 +08:00
    厉害了
    yu099
        3
    yu099  
       2017-11-13 08:43:00 +08:00 via Android
    三个点只识别出一个😂😂
    Telegram
        4
    Telegram  
       2017-11-13 08:44:02 +08:00
    看上去好棒
    quietjosen
        5
    quietjosen  
    OP
       2017-11-13 08:47:00 +08:00
    @Willjim 也不完全,Klib 就是一般的窗口应用。主要是截图这种事,状态栏比较适合。
    quietjosen
        6
    quietjosen  
    OP
       2017-11-13 08:47:31 +08:00
    @yu099 你这种挑剔的精神,刺激了人们进步 😂
    quietjosen
        7
    quietjosen  
    OP
       2017-11-13 08:47:46 +08:00
    @Telegram 试试也不错的 :)
    cxl008
        8
    cxl008  
       2017-11-13 08:50:22 +08:00
    没有下载地址? app store 搜不到啊
    houbaron
        9
    houbaron  
       2017-11-13 08:51:50 +08:00 via Android
    @cxl008 #8 楼主说封闭内测了
    Telegram
        10
    Telegram  
       2017-11-13 08:59:32 +08:00
    @quietjosen #7 可是我是 PC,无奈。
    AdamChrist
        11
    AdamChrist  
       2017-11-13 08:59:41 +08:00
    厉害了...点赞...
    gitgit
        12
    gitgit  
       2017-11-13 09:10:14 +08:00
    windows 版本有吗
    mokeyjay
        13
    mokeyjay  
       2017-11-13 09:11:21 +08:00
    Win 哭出声
    x7395759
        14
    x7395759  
       2017-11-13 09:24:27 +08:00   ❤️ 1
    这种很正规的识别怎么样都不会差,会差的是图文混排,字体倾斜,字体粗细不一致,可见程度不一致,等~~~~
    但还是很厉害的,我做一个验证码识别也就能到 70---------
    privil
        15
    privil  
       2017-11-13 09:26:05 +08:00   ❤️ 4
    很标题党了 = =
    VShawn
        16
    VShawn  
       2017-11-13 09:28:22 +08:00 via Android   ❤️ 1
    这种很规整的文章 tesseractOCR 就搞定了
    leeyom
        17
    leeyom  
       2017-11-13 09:38:32 +08:00
    太棒了,好东西噢
    CEBBCAT
        18
    CEBBCAT  
       2017-11-13 09:41:27 +08:00 via Android
    看起来不错,一看图就想起来 Snipaste 了,希望也是个很棒的软件
    only0jac
        19
    only0jac  
       2017-11-13 09:41:54 +08:00 via Android
    @gitgit
    @mokeyjay
    win 有什么可哭的,这种工具一大堆,秒 osx 几条街
    gitgit
        20
    gitgit  
       2017-11-13 09:43:11 +08:00
    @only0jac 元如此
    zzutmebwd
        21
    zzutmebwd  
       2017-11-13 09:43:52 +08:00 via Android   ❤️ 2
    @mokeyjay abbyy 秒一切✔
    quietjosen
        22
    quietjosen  
    OP
       2017-11-13 09:48:15 +08:00
    @x7395759 欢迎整个这种图来调戏一下 iText,看看它表现如何。
    wplct
        23
    wplct  
       2017-11-13 10:03:15 +08:00
    这种做交互上的创新也很不错。lz 厉害
    xuanboyi
        24
    xuanboyi  
       2017-11-13 10:05:18 +08:00 via iPhone
    真大神,收下膝盖
    Hayek
        25
    Hayek  
       2017-11-13 10:05:20 +08:00
    看标题以为在吹牛 x。
    点进来看内容是真牛 x。
    虽然识别使用的是接口,但是实现上还是挺好的。
    freefcw
        26
    freefcw  
       2017-11-13 10:09:36 +08:00
    不错不错,很方便的感觉
    xwartz
        27
    xwartz  
       2017-11-13 10:17:53 +08:00
    优秀
    quietjosen
        28
    quietjosen  
    OP
       2017-11-13 10:39:19 +08:00
    @Hayek 哈哈,看回复吓了一跳;识别这种事,还是有技术难度的;自己搞,肯定不如大公司。
    hester
        29
    hester  
       2017-11-13 10:44:34 +08:00   ❤️ 4
    太标题党了!
    看来 LZ 在此道越走越远...

    为什么说标题党呢?
    因为 文中 压根也没有拿出任何 “证据” 证实与百度比肩 是什么意思...

    另外,应该用了第三方的库,这种 OCR 类 App 同质化的比较严重,如果楼主能开源的话,供大家学习的话,或许还有些用处。
    livc
        30
    livc  
       2017-11-13 10:48:09 +08:00
    资词
    quietjosen
        31
    quietjosen  
    OP
       2017-11-13 10:50:54 +08:00
    @hester 请看正文第三行。
    hester
        32
    hester  
       2017-11-13 10:53:42 +08:00
    @quietjosen #31
    我就是看了
    集成百度深度学习算法(所以可以和百度 PK😂),识别结果惊人的准确

    才说的,所以才是标题党,我有说错吗?
    quietjosen
        33
    quietjosen  
    OP
       2017-11-13 10:57:44 +08:00
    @hester 好吧,听出了痛心疾首的感觉。
    icylogic
        34
    icylogic  
       2017-11-13 11:01:45 +08:00
    楼上想要 Windows 版的 …… Windows 有的,支持 100 多种语言

    https://i.loli.net/2017/11/13/5a090a6837c29.png

    顺便连翻译也有了

    https://ooo.0o0.ooo/2017/11/13/5a090a684990a.png
    quietjosen
        35
    quietjosen  
    OP
       2017-11-13 11:07:17 +08:00
    @icylogic 看来还是 Windows 软件生态丰富,去瞧瞧,关键是看看识别率。
    z0z
        36
    z0z  
       2017-11-13 11:10:20 +08:00
    这个需要在线识别吗?
    lwbjing
        37
    lwbjing  
       2017-11-13 11:29:58 +08:00 via iPhone
    一天,哈哈,,,李彦宏看了要流泪…
    quietjosen
        38
    quietjosen  
    OP
       2017-11-13 11:35:09 +08:00
    @z0z 需要,因为调用的是百度的服务。
    quietjosen
        39
    quietjosen  
    OP
       2017-11-13 11:36:01 +08:00
    @lwbjing 你错了,他笑还来不及,我昨晚刚给百度充值了 100 信仰币…
    hester
        40
    hester  
       2017-11-13 11:36:18 +08:00
    @quietjosen #33
    到没有那么夸张,但我的确很不喜欢纯标题党。(如果仅仅是自娱自乐 + 自黑 的话,我到觉得挺正常。)
    就好比,某些导购,明明东西不错,但是导购用的“话术”很是恶心,听着就没有购买的欲望了。
    (并不是针对你,或其他某些具体的人)
    quietjosen
        41
    quietjosen  
    OP
       2017-11-13 11:37:07 +08:00   ❤️ 1
    @hester 恩,明白。
    deadEgg
        42
    deadEgg  
       2017-11-13 11:53:07 +08:00
    嘿 cool
    artandlol
        43
    artandlol  
       2017-11-13 11:57:13 +08:00 via iPhone
    非年轻人还这么喜欢折腾 点赞
    icylogic
        44
    icylogic  
       2017-11-13 11:59:59 +08:00   ❤️ 1
    @quietjosen 七八年前开发的,好像没有用到 Deep Learning 吧,只是功能相对完善。

    我也好奇你的软件或者说百度的算法,有干扰的情况调教地怎么样。你的截图和我发的图其实都是最容易识别的情景。对于 OCR 来说也就是 MNIST 这个级别的工作吧 …… 不妨试试这两张,看看效果怎么样 ……

    https://i.loli.net/2017/11/13/5a0914552cfff.png
    https://i.loli.net/2017/11/13/5a09145667ffc.png

    原本就在屏幕上渲染的字体,比如视频中的字幕,更复杂的 b 站弹幕,这些文本其实本身可识别率非常高,只是背景有干扰。

    另一方面比如手写体、照片、扫描文档,这些字体有变形,识别率就更低了。

    后者其实我目前见到做得最好的也就是 Google 翻译 App,摄像头对着文本实时识别加翻译,App 会直接用翻译文本在手机取景界面上把原文替换掉,识别对了效果非常好。不过也经常完全识别错。微软的也不错,不过需要拍一下,一张一张扫。
    quietjosen
        45
    quietjosen  
    OP
       2017-11-13 12:05:44 +08:00
    @icylogic 我试了你提供的第 2 张图:



    第 1 张图也是可以的,你也可以自己试试。
    qdwang
        46
    qdwang  
       2017-11-13 12:11:05 +08:00 via iPhone
    看效果相当不错,应该很好用
    lanfeng007
        47
    lanfeng007  
       2017-11-13 12:24:38 +08:00
    mark 一下!
    notreami
        48
    notreami  
       2017-11-13 12:26:19 +08:00
    亮点在哪里?没有创新小 Demo,就不要放上来赶英超美了。
    gzlock
        49
    gzlock  
       2017-11-13 12:33:55 +08:00
    quietjosen
        50
    quietjosen  
    OP
       2017-11-13 13:08:45 +08:00
    @gzlock 是的
    BlackCat02
        51
    BlackCat02  
       2017-11-13 13:24:10 +08:00
    试了一下,对中文的识别不错。对 vim 里的代码识别了一下,就感觉有点差强人意。不知道百度这个接口是不是本身就不是针对英文的
    quietjosen
        52
    quietjosen  
    OP
       2017-11-13 13:37:35 +08:00
    @BlackCat02 恩,毕竟百度是中文起家的;如果是英文,估计得选择国外的服务。不过,代码不是英语,无法使用英语的规则对结果进行优化。
    surewen
        53
    surewen  
       2017-11-13 13:44:28 +08:00
    是用了百度云的 SDK ?曾经和你的想法一样,想做成 app ……

    接口啥都调完了,不过后面犯懒没做完……

    支持
    quietjosen
        54
    quietjosen  
    OP
       2017-11-13 13:57:22 +08:00
    @surewen 百度没有 macOS SDK,我是封装了其 REST API
    menc
        55
    menc  
       2017-11-13 14:35:54 +08:00
    调用了人家的服务,应该叫“给百度套了个壳”,不是叫做“比肩百度”,你得自己做一个才好意思比较。
    ty321ty
        56
    ty321ty  
       2017-11-13 14:38:12 +08:00
    @icylogic 找来找去这软件只有截图功能啊 几百 K 的大小 是我下载错软件了吗..
    surewen
        57
    surewen  
       2017-11-13 14:42:48 +08:00
    @quietjosen 嗯嗯,我说的就是 rest api。

    当时我还试过自己下载字库的图片,批量裁出来然后用 tesseract 来训练,结果中文的效果还是很差。
    quietjosen
        58
    quietjosen  
    OP
       2017-11-13 14:47:36 +08:00
    @menc 应该叫站在「百度肩膀」
    quietjosen
        59
    quietjosen  
    OP
       2017-11-13 14:48:05 +08:00
    @surewen 感觉这种离线的库,不如云服务;后者有天然优势,可以实时更新识别能力。
    dong3580
        60
    dong3580  
       2017-11-13 14:48:35 +08:00
    @ty321ty
    好像是这个,还是开源的,真是大牛,
    https://sourceforge.net/projects/capture2text/
    xy19009188
        61
    xy19009188  
       2017-11-13 15:25:40 +08:00
    那么有 Windows 版么
    quietjosen
        62
    quietjosen  
    OP
       2017-11-13 15:33:28 +08:00
    @xy19009188 没; Windows 应该有的,可以试试上面说的 Capture2text (我没试过)
    BlackCat02
        63
    BlackCat02  
       2017-11-13 15:57:34 +08:00
    @quietjosen 是的,代码并不符合自然语法规则
    Izual_Yang
        64
    Izual_Yang  
       2017-11-13 16:13:02 +08:00
    @mokeyjay #13
    curl.exe -s -F "action=submit" -F 'pic=@"本地图片.jpg"' http://ocr.shouji.sogou.com/v2/ocr/json | jq.exe -r ".result | .[].content"
    Izual_Yang
        65
    Izual_Yang  
       2017-11-13 16:14:05 +08:00
    @icylogic #44
    弹幕本来就是文本不是图片啊,你直接从 xml 里提取文字不就行了
    aver4vex
        66
    aver4vex  
       2017-11-13 16:31:10 +08:00
    我去找个变态验证码试试,好的话,爬虫就有指望了。O(∩_∩)O 哈哈~
    ialva
        67
    ialva  
       2017-11-13 18:21:32 +08:00 via Android
    还差一台 MacBook 就能用上了
    quietjosen
        68
    quietjosen  
    OP
       2017-11-13 18:29:45 +08:00
    @aver4vex 变态码…别想了,有的连码它妈都不认识…
    xy19009188
        69
    xy19009188  
       2017-11-13 18:52:04 +08:00 via Android
    @quietjosen 试了下,识别不太好
    quietjosen
        70
    quietjosen  
    OP
       2017-11-13 19:15:31 +08:00
    @xy19009188 方便的话,把图片发过来,我这边也试试。
    tnx2014
        71
    tnx2014  
       2017-11-13 21:13:03 +08:00   ❤️ 2
    看标题,我还以为是楼主自己的算法,结果还是调用别人的接口,这一点也不稀奇( Windows 下一堆调用百度、搜狗识别引擎的真的很多),虽然楼主也付出了一定的劳动,但既然用了别人的东西还说“比肩”那真的是用词不当,站在巨人肩膀上不等于比肩,如果楼主认为两者等价那我只能遗憾地表示我认为您语文不太好。

    当然楼主说“比肩”也可能有调侃意味,不过我建议本着说话负责的态度,有些东西还是别开玩笑。楼主做一个小工具给他人用值得表扬,但是既然核心算法是他人的,还是低调一些为好。

    我说话有时候不好听,对事不对人,如有让你不舒服的地方我先表示抱歉。
    quietjosen
        72
    quietjosen  
    OP
       2017-11-13 21:28:44 +08:00
    @tnx2014 我花了一天,做了一款站在「百度」肩膀上的 OCR 图片识字工具 iText
    mainjzb
        73
    mainjzb  
       2017-11-13 23:06:16 +08:00
    @hester 试了一下。。识别率低下。。。中文。 样品是百度随便搜索了一下出来的页面
    WhiteSJ
        74
    WhiteSJ  
       2017-11-13 23:36:43 +08:00
    厉害了, 很有用啊
    cptbtp
        75
    cptbtp  
       2017-11-14 08:08:36 +08:00
    厉害了。
    xiaogu0322
        76
    xiaogu0322  
       2017-11-14 09:13:06 +08:00
    @leeyom 你真棒~
    awfe
        77
    awfe  
       2017-11-14 15:03:07 +08:00
    看到 iText 这个名字还以为是搞 pdf 的……

    https://itextpdf.com/
    quietjosen
        78
    quietjosen  
    OP
       2017-11-14 19:19:17 +08:00
    @awfe 其实 iText 这个名字是随意想的,毕竟总共做这个东西才几天;不过也挺契合我的其他产品名( iPic/iTimer/iHosts/iPaste ),估计不打算改了。
    jwangkun
        79
    jwangkun  
       2017-11-15 12:14:10 +08:00
    试用了一下,非常好,以后再也不用百度文库下载券了,我看试用期只有 30 天,之后是要收费么
    sangmong
        80
    sangmong  
       2017-11-15 14:12:42 +08:00
    有没有 iphone 上的呢
    quietjosen
        81
    quietjosen  
    OP
       2017-11-16 00:20:01 +08:00
    @jwangkun 30 天之内,估计还会有新的内测版。不过,发布后肯定是收费产品,可能是订阅或按次收费。
    quietjosen
        82
    quietjosen  
    OP
       2017-11-16 00:20:12 +08:00
    @sangmong iPhone 下试试「白描」
    Jibunuo
        83
    Jibunuo  
       2017-11-17 16:32:28 +08:00 via Android
    厉害!
    hvsy
        84
    hvsy  
       2017-11-17 22:46:57 +08:00
    好厉害,已经发邮件了.希望能够试用一下.
    Marsss
        85
    Marsss  
       2017-12-07 09:59:57 +08:00
    中英文混合的识别率怎么样?
    quietjosen
        86
    quietjosen  
    OP
       2017-12-07 10:09:30 +08:00 via iPhone
    腾讯在这方面还行,感觉百度英文稍差些,iText 用的是腾讯。

    iText 已上架 MAS,何不下载试试?
    quietjosen
        87
    quietjosen  
    OP
       2017-12-07 20:02:45 +08:00
    @Marsss 楼上回复忘记 @ 了
    zhihuixiangying
        88
    zhihuixiangying  
       2018-01-20 00:21:55 +08:00
    体验感觉挺不错的。
    quietjosen
        89
    quietjosen  
    OP
       2018-01-20 10:13:27 +08:00
    @zhihuixiangying 吃的就是这碗饭,体验必须搞好 💪
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1019 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 37ms · UTC 22:25 · PVG 06:25 · LAX 14:25 · JFK 17:25
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.