整合了一套开源 OCR 识别方案，支持 HTTP API 调用 - V2EX

Home Sign Up Sign In

爱意满满的作品展示区。

网上没找到比较适合的现成 OCR 私有部署方案，于是基于百度飞桨平台发布了全新的 PP-OCRv6 识别模型自己整合了一套方案 ZOCR ，支持 Dcoker 部署和 HTTP API 调用。

Zocr 开源地址：https://github.com/helloxz/zocr

Zocr 特点

基于百度飞桨 PP-OCRv6 识别模型，提供两档可选：tiny / small
支持 Bearer Token 认证
支持 Docker 容器化部署
纯 CPU 推理，不依赖 GPU
支持常见图片格式：jpg/jpeg/png/bmp/webp
支持 HTTP 调用
轻量级占用

Docker Compose 部署

创建compose.yaml文件：

services:
  zocr:
    image: helloz/zocr
    container_name: zocr
    ports:
      - "5080:5080"
    environment:
      - ZOCR_TOKEN=your_token_here
    restart: always

然后输入：docker compose up -d启动。

注意：请将your_token_here设置为您自己的密钥，支持字母或数字。

使用

HTTP API 支持 2 种接口，一种是上传文件识别，一种是通过传递图片 URL 进行识别，调用方法如下：

# 使用 curl 调用（上传文件）
curl -X POST http://localhost:5080/api/ocr/upload \
  -H "Authorization: Bearer your_token" \
  -F "[email protected]"

# 使用 curl 调用（通过 URL ）
curl "http://localhost:5080/api/ocr/fetch?url=https://example.com/image.jpg" \
  -H "Authorization: Bearer your_token"

DEMO

在线演示地址：https://zocr.xphub.dev/

需要输入 Token：blog.xiaoz.org，此 Token 有效期 7 天，后续我会修改 Token 纯自用。

40 replies • 2026-06-19 08:09:26 +08:00

1

zsj1029

1 day ago

1

最近 x 上看到的，听说很牛的，甚至可以跑在 webassembly 本地 ocr 模型

2

xiaoz

OP

23h 42m ago

@zsj1029 #1 ，是的，我试了下效果还不错，而且速度很快。宣传的本地浏览器就能跑，不过浏览器上我还没测试过。

3

wshjdx

23h 26m ago

1

善，已经部署

4

xiaoz

OP

23h 24m ago

@wshjdx #3,祝你使用愉快，有什么建议也可以去 Github 反馈，感谢。

5

burp2019

23h 16m ago

1

体验了下速度挺快，你意思是模型开源，可以离线部署么

6

xiaoz

OP

22h 57m ago

@burp2019 是的啊，百度飞桨模型不是开源很多年了嘛。

我上面那个就是基于百度飞桨的 PP-OCRv6 模型，你可以让 AI 辅助你研究下他们的文档。

7

lyxxxh2

21h 17m ago

1

我来拨个冷水,效果不咋地。
运行图:https://i.ibb.co/W4sQd3kx/test1.png
原图:https://i.ibb.co/Q33SWbYB/d3.jpg

我尝试过飞桨的 ocr 方案,印象是可以识别的啊。

8

xiaoz

OP

21h 0m ago

@lyxxxh2 #7 ，飞桨提供的 OCR 模型挺多的，不同模型效果存在差异。

PP-OCRv6 主要是比较轻量，适合一些标准网络图片识别，一些手写字或者特殊字体效果可能确实一般。

如果要高精准，用更大的模型或者调用官方 API 效果更好。一般场景的话 PP-OCRv6 也够用了。

9

ITisCool

20h 50m ago

1

可以加上 Medium 档吗？，想在服务器部署一个

10

xiaoz

OP

20h 36m ago

@ITisCool #9 ，可以，一会儿我去加上。

11

jackOff

18h 57m ago

1

这么牛逼？纯 cpu 本地离线就能跑？那不得不好好学习一下了

12

xiaoz

OP

18h 54m ago

@jackOff #11 ，嗯，是的，现在已经很牛逼了，你可以去研究下百度飞桨的 Github ，关键词是：PP-OCRv6

13

luis330

18h 30m ago

1

基于飞桨的 API ，我是让 hermes 自己做了个技能，有什么图片、PDF 之类需要 OCR 识别的，都交给他跑 API 就好了，也很方便呢

14

xiaoz

OP

18h 14m ago

@luis330 #13 ，那你 hermes 直接对接后端多模态的大模型不更简单么，就是比较费 tokens

15

xxgzzzzzz

18h 2m ago

有没有 arm 可以用的高精度车牌识别呢

16

v1

18h 0m ago

hook 微信截图的 ocr 最好用，医体字都快成象形字了都能识别 70%

17

perfectlife

17h 59m ago

1

ocr 识别后能按图片中文字布局显示就好了

18

yuhuai66666

17h 57m ago

1

实体的银行卡呢可以识别么

19

rockddd

17h 56m ago

1

可以支持同步输出文字坐标吗

20

xiaoz

OP

17h 50m ago

1

@rockddd #19 ，WEB 页面只是起到快速演示作用。你 F12 看下 API 或者根据项目说明直接调用 API ，有返回坐标的哈。

21

xiaoz

OP

17h 49m ago

@perfectlife #17 ，这个你可以根据 API 结果来调整哈。WEB 页面只是为了演示，暂不支持。

22

rockddd

17h 47m ago

@xiaoz #20 感谢，今晚就拉代码

23

wxVIP

17h 41m ago

1

之前社区里有个大佬提取了微信的 OCR 去开源了，我觉得那个的效果就很好。

24

xiaoz

OP

17h 40m ago

@yuhuai66666 #18 ，我试了下，银行卡这类场景，识别效果好像不咋行。

不清楚是不是故意没有训练这部分数据，然后让你买专门的银行卡识别 API

25

luis330

17h 38m ago

1

@xiaoz #14 就是这么考虑的，直接交给多模态模型比较费 Tokens ，所以就多管齐下，多给 hermes 加了些技能，遇到我有些多页的 PDF ，或者文字量大的图转 MD 需求，飞桨的免费额度又足够，这招就比较好用。

26

xiaoz

OP

17h 38m ago

@wxVIP #23,牛逼，那是不是必须依赖微信客户端啊？如果本地没安装微信客户端还能用吗？

27

xiaoz

OP

17h 37m ago

@luis330 #25 ，可以，一些文字场景的图片直接交给 OCR ，复杂类物体的交给大模型。但是你是如何让它做区分处理的？

28

soFollish

16h 50m ago

minerU cpu 也能跑，昨天刚部署了一个。效果也很超预期

29

zhenying

16h 47m ago via Android

1

支不支持模板，比如身份证识别，发票识别这些。

30

luis330

16h 39m ago

@xiaoz #27

我口头安排，先喊 hermes 去用调用飞桨的 OCR 处理，要处理不好，直接让 hermes 安排一个子 Profile 处理，这个子 Profile 是我专门给他配的多模态模型为主模型。

31

xiaoz

OP

16h 29m ago

@zhenying #29 ，暂不支持哦，PP-OCRv6 可能对某些特定场景训练不足，不确定能否识别，还要进一步测试验证。

32

potatowish

15h 57m ago via iPhone

1

这个模型我试了在用户浏览器端也可以跑，对于特定类型图片还需要套一层 ai

33

xiaoz

OP

15h 42m ago

@potatowish #32 ，是的，tiny 模型可以在本地浏览器直接跑，官方有提供了对应解决方案。

34

wxVIP

15h 7m ago

1

@xiaoz #26 不需要，单独的 lib 文件。容器启动就可以用了

35

rxs

14h 41m ago

1

我去，原来最近出新模型了，官网试用了一下感觉不错。
v5 模型有个缺点是识别生僻字很不准，甚至直接识别不出来，缺字，比如「莳」字。v6 似乎解决了这个问题。

36

funet

13h 11m ago

1

这 2 天做图片甄选小工具，一个 v2 老哥提了个 OCR 的需求，于是实现了对整个所需文件夹的所有图片一键提取文字（ ocr ） https://gongfang.app/pixsift/

纯前端实现，无服务器和 API ，足够轻量，即开即用，针对识别度要求不够的场景，凑合够用

37

roker

11h 57m ago

哈哈哈你看看我这个 https://imagetotext.cv/ 。直接打开网页本地推理，不需要上传

38

roker

11h 55m ago

@roker 我用的 PP-OCRv6 small 模型比 tiny 好一些，本地浏览器直接跑的

39

simo

10h 44m ago

1

这个支持识别的图片尺寸最大多少的？

40

xiaoz

OP

2h 30m ago

@simo #39 ，没有限制图片尺寸，只限制了图片大小不超过 10MB

About · Help · Advertise · Blog · API · FAQ · Solana · 2744 Online Highest 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 77ms · UTC 02:39 · PVG 10:39 · LAX 19:39 · JFK 22:39
♥ Do have faith in what you're doing.