爱意满满的作品展示区。
xiaoz
1.03D

整合了一套开源 OCR 识别方案,支持 HTTP API 调用

  •  1
     
  •   xiaoz ·
    helloxz · 1 day ago · 2342 views

    网上没找到比较适合的现成 OCR 私有部署方案,于是基于百度飞桨平台发布了全新的 PP-OCRv6 识别模型自己整合了一套方案 ZOCR ,支持 Dcoker 部署和 HTTP API 调用。

    CleanShot 2026-06-18 at 08.36.40@2x.png

    Zocr 开源地址:https://github.com/helloxz/zocr

    Zocr 特点

    • 基于百度飞桨 PP-OCRv6 识别模型,提供两档可选:tiny / small
    • 支持 Bearer Token 认证
    • 支持 Docker 容器化部署
    • 纯 CPU 推理,不依赖 GPU
    • 支持常见图片格式:jpg/jpeg/png/bmp/webp
    • 支持 HTTP 调用
    • 轻量级占用

    Docker Compose 部署

    创建compose.yaml文件:

    services:
      zocr:
        image: helloz/zocr
        container_name: zocr
        ports:
          - "5080:5080"
        environment:
          - ZOCR_TOKEN=your_token_here
        restart: always
    

    然后输入:docker compose up -d启动。

    注意:请将your_token_here设置为您自己的密钥,支持字母或数字。

    使用

    HTTP API 支持 2 种接口,一种是上传文件识别,一种是通过传递图片 URL 进行识别,调用方法如下:

    # 使用 curl 调用(上传文件)
    curl -X POST http://localhost:5080/api/ocr/upload \
      -H "Authorization: Bearer your_token" \
      -F "[email protected]"
    
    # 使用 curl 调用(通过 URL )
    curl "http://localhost:5080/api/ocr/fetch?url=https://example.com/image.jpg" \
      -H "Authorization: Bearer your_token"
    

    DEMO

    在线演示地址:https://zocr.xphub.dev/

    需要输入 Token:blog.xiaoz.org,此 Token 有效期 7 天,后续我会修改 Token 纯自用。

    40 replies    2026-06-19 08:09:26 +08:00
    zsj1029
        1
    zsj1029  
       1 day ago   ❤️ 1
    最近 x 上看到的,听说很牛的,甚至可以跑在 webassembly 本地 ocr 模型
    xiaoz
        2
    xiaoz  
    OP
       23h 42m ago
    @zsj1029 #1 ,是的,我试了下效果还不错,而且速度很快。宣传的本地浏览器就能跑,不过浏览器上我还没测试过。
    wshjdx
        3
    wshjdx  
       23h 26m ago   ❤️ 1
    善,已经部署
    xiaoz
        4
    xiaoz  
    OP
       23h 24m ago
    @wshjdx #3,祝你使用愉快,有什么建议也可以去 Github 反馈,感谢。
    burp2019
        5
    burp2019  
       23h 16m ago   ❤️ 1
    体验了下速度挺快,你意思是模型开源,可以离线部署么
    xiaoz
        6
    xiaoz  
    OP
       22h 57m ago
    @burp2019 是的啊,百度飞桨模型不是开源很多年了嘛。

    我上面那个就是基于百度飞桨的 PP-OCRv6 模型,你可以让 AI 辅助你研究下他们的文档。
    lyxxxh2
        7
    lyxxxh2  
       21h 17m ago   ❤️ 1
    我来拨个冷水,效果不咋地。
    运行图:https://i.ibb.co/W4sQd3kx/test1.png
    原图:https://i.ibb.co/Q33SWbYB/d3.jpg

    我尝试过飞桨的 ocr 方案,印象是可以识别的啊。
    xiaoz
        8
    xiaoz  
    OP
       21h 0m ago
    @lyxxxh2 #7 ,飞桨提供的 OCR 模型挺多的,不同模型效果存在差异。

    PP-OCRv6 主要是比较轻量,适合一些标准网络图片识别,一些手写字或者特殊字体效果可能确实一般。

    如果要高精准,用更大的模型或者调用官方 API 效果更好。一般场景的话 PP-OCRv6 也够用了。
    ITisCool
        9
    ITisCool  
       20h 50m ago   ❤️ 1
    可以加上 Medium 档吗?,想在服务器部署一个
    xiaoz
        10
    xiaoz  
    OP
       20h 36m ago
    @ITisCool #9 ,可以,一会儿我去加上。
    jackOff
        11
    jackOff  
       18h 57m ago   ❤️ 1
    这么牛逼?纯 cpu 本地离线就能跑?那不得不好好学习一下了
    xiaoz
        12
    xiaoz  
    OP
       18h 54m ago
    @jackOff #11 ,嗯,是的,现在已经很牛逼了,你可以去研究下百度飞桨的 Github ,关键词是:PP-OCRv6
    luis330
        13
    luis330  
       18h 30m ago   ❤️ 1
    基于飞桨的 API ,我是让 hermes 自己做了个技能,有什么图片、PDF 之类需要 OCR 识别的,都交给他跑 API 就好了,也很方便呢
    xiaoz
        14
    xiaoz  
    OP
       18h 14m ago
    @luis330 #13 ,那你 hermes 直接对接后端多模态的大模型不更简单么,就是比较费 tokens
    xxgzzzzzz
        15
    xxgzzzzzz  
       18h 2m ago
    有没有 arm 可以用的高精度 车牌识别呢
    v1
        16
    v1  
       18h 0m ago
    hook 微信截图的 ocr 最好用,医体字都快成象形字了都能识别 70%
    perfectlife
        17
    perfectlife  
       17h 59m ago   ❤️ 1
    ocr 识别后能按图片中文字布局显示就好了
    yuhuai66666
        18
    yuhuai66666  
       17h 57m ago   ❤️ 1
    实体的银行卡呢 可以识别么
    rockddd
        19
    rockddd  
       17h 56m ago   ❤️ 1
    可以支持同步输出文字坐标吗
    xiaoz
        20
    xiaoz  
    OP
       17h 50m ago   ❤️ 1
    @rockddd #19 ,WEB 页面只是起到快速演示作用。你 F12 看下 API 或者根据项目说明直接调用 API ,有返回坐标的哈。
    xiaoz
        21
    xiaoz  
    OP
       17h 49m ago
    @perfectlife #17 ,这个你可以根据 API 结果来调整哈。WEB 页面只是为了演示,暂不支持。
    rockddd
        22
    rockddd  
       17h 47m ago
    @xiaoz #20 感谢,今晚就拉代码
    wxVIP
        23
    wxVIP  
       17h 41m ago   ❤️ 1
    之前社区里有个大佬提取了微信的 OCR 去开源了,我觉得那个的效果就很好。
    xiaoz
        24
    xiaoz  
    OP
       17h 40m ago
    @yuhuai66666 #18 ,我试了下,银行卡这类场景,识别效果好像不咋行。

    不清楚是不是故意没有训练这部分数据,然后让你买专门的银行卡识别 API
    luis330
        25
    luis330  
       17h 38m ago   ❤️ 1
    @xiaoz #14 就是这么考虑的,直接交给多模态模型比较费 Tokens ,所以就多管齐下,多给 hermes 加了些技能,遇到我有些多页的 PDF ,或者文字量大的图转 MD 需求,飞桨的免费额度又足够,这招就比较好用。
    xiaoz
        26
    xiaoz  
    OP
       17h 38m ago
    @wxVIP #23,牛逼,那是不是必须依赖微信客户端啊?如果本地没安装微信客户端还能用吗?
    xiaoz
        27
    xiaoz  
    OP
       17h 37m ago
    @luis330 #25 ,可以,一些文字场景的图片直接交给 OCR ,复杂类物体的交给大模型。但是你是如何让它做区分处理的?
    soFollish
        28
    soFollish  
       16h 50m ago
    minerU cpu 也能跑,昨天刚部署了一个。效果也很超预期
    zhenying
        29
    zhenying  
       16h 47m ago via Android   ❤️ 1
    支不支持模板,比如身份证识别,发票识别这些。
    luis330
        30
    luis330  
       16h 39m ago
    @xiaoz #27 我口头安排,先喊 hermes 去用调用飞桨的 OCR 处理,要处理不好,直接让 hermes 安排一个子 Profile 处理,这个子 Profile 是我专门给他配的多模态模型为主模型。
    xiaoz
        31
    xiaoz  
    OP
       16h 29m ago
    @zhenying #29 ,暂不支持哦,PP-OCRv6 可能对某些特定场景训练不足,不确定能否识别,还要进一步测试验证。
    potatowish
        32
    potatowish  
       15h 57m ago via iPhone   ❤️ 1
    这个模型我试了在用户浏览器端也可以跑,对于特定类型图片还需要套一层 ai
    xiaoz
        33
    xiaoz  
    OP
       15h 42m ago
    @potatowish #32 ,是的,tiny 模型可以在本地浏览器直接跑,官方有提供了对应解决方案。
    wxVIP
        34
    wxVIP  
       15h 7m ago   ❤️ 1
    @xiaoz #26 不需要,单独的 lib 文件。容器启动就可以用了
    rxs
        35
    rxs  
       14h 41m ago   ❤️ 1
    我去,原来最近出新模型了,官网试用了一下感觉不错。
    v5 模型有个缺点是识别生僻字很不准,甚至直接识别不出来,缺字,比如「莳」字。v6 似乎解决了这个问题。
    funet
        36
    funet  
       13h 11m ago   ❤️ 1
    这 2 天做图片甄选小工具,一个 v2 老哥提了个 OCR 的需求,于是实现了对整个所需文件夹的所有图片一键提取文字( ocr ) https://gongfang.app/pixsift/

    纯前端实现,无服务器和 API ,足够轻量,即开即用,针对识别度要求不够的场景,凑合够用
    roker
        37
    roker  
       11h 57m ago
    哈哈哈 你看看我这个 https://imagetotext.cv/ 。 直接打开网页本地推理,不需要上传
    roker
        38
    roker  
       11h 55m ago
    @roker 我用的 PP-OCRv6 small 模型 比 tiny 好一些,本地浏览器直接跑的
    simo
        39
    simo  
       10h 44m ago   ❤️ 1
    这个支持识别的图片尺寸最大多少的?
    xiaoz
        40
    xiaoz  
    OP
       2h 30m ago
    @simo #39 ,没有限制图片尺寸,只限制了图片大小不超过 10MB
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2744 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 77ms · UTC 02:39 · PVG 10:39 · LAX 19:39 · JFK 22:39
    ♥ Do have faith in what you're doing.