最近被 OCR 识别搞得头痛

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 330 天前的主题，其中的信息可能已经有所发展或是发生改变。

最近项目需要识别功能，对接了第三方 OCR 公司但出现问题频率太高了，windows 正常识别，部署到服务器就失败，环境换了又换（都是对方指定版本）我看用的是一些 opencv 的包，也不懂很无奈

有擅长的朋友给些意见么

OCR

识别

opencv

49 条回复 • 2025-04-24 20:54:55 +08:00

ala2008

2025 年 4 月 18 日

之前不是有人开源弄了个微信 ocr 吗，感觉挺强的

lanweizhujiao

2025 年 4 月 18 日

那个我有你敢使用吗？

ltfree

2025 年 4 月 18 日

@ala2008 我们这需要在内网运行的

datocp

2025 年 4 月 18 日

之前的 px940 采集二维码，不知道算不算 ocr 。平时习惯 sysprep 生成 update 过的系统。
最后才发现只能装 ltsc2021 最原始的发行版本，不在线更新补丁，一些识别异常的问题就解决了。通常供应商指定的系统应该能解决吧，难道是显卡驱动部分嘛。显卡在 win10 以上的系统主要是截取的画面位置变化。软件快捷方式有更改高 DPI 设置/替代高 DPI 缩放行为/应用程序。

reeco

2025 年 4 月 18 日

部署个 paddleocr 解决

pulutom40

2025 年 4 月 18 日 via iPhone

@ltfree 那个微信 ocr 是把微信的模型提出来运行，不是运行一个微信

katwalk

2025 年 4 月 18 日 via Android

@ala2008 那个微信 ocr 项目叫什么，想用一下

gxt92

2025 年 4 月 18 日

@katwalk https://www.v2ex.com/t/1120897
原 OP 好像删库了，找 fork 了的人

miyuki

2025 年 4 月 18 日

@ltfree 那个应该是把模型文件扒出来了

LiuJiang

2025 年 4 月 18 日

试试 openAI 最新的 o3 模型识别？

ltfree

2025 年 4 月 18 日

@LiuJiang 好的我去看看

Rat3

2025 年 4 月 18 日

@LiuJiang

这俩的应用层都不一样把，OCR 的场景和 O3 的推理场景不是完全重合的把，OCR 仅仅是 O3 推理流程的一环，为了一个 ORC 去用 O3 这不完全本末倒置了吗？

MartinYANG06

2025 年 4 月 18 日

用 docker 配好容器直接拉过去呗

villivateur

2025 年 4 月 18 日

我用 ollama 自己部署的 gemma3 ，用来做 OCR 效率挺高的

mumbler

2025 年 4 月 18 日

OCR 开源项目就那几个，你们用的是哪个

Alexf4

2025 年 4 月 18 日

AI 可以试试 gemini/o3
专精的就试试 PaddleOCR

BadMan

2025 年 4 月 18 日

如果你们有 gpu 机器，直接到 huggingface 上按排行榜下载一个 ocr 模型或者多模态大模型部署，效果很好的

Patrick6

2025 年 4 月 18 日

https://mistral.ai/news/mistral-ocr
这个？

soleils

2025 年 4 月 18 日

微信那个 OCR 提取我用了, 自己部署后效果不好, 听说和系统, CPU 型号有关

NoOneNoBody

2025 年 4 月 18 日

识别率如何是技术问题，但部署成功失败，就是管理问题了，不能只听外包的
opencv 本身不带 ocr ，它只是读图，以及方便定位（图片上的位置）、变换，它只是依赖的部分

目前国内用得广泛的就是 paddleocr ，这货最大问题是依赖问题，例如 numpy 2 、多环境部署都有问题
例如 opencv 版本比较新，opencv 依赖的 numpy 也新，那依赖较旧 numpy 版本的 paddleocr 就会冲突
我建议你就是找那些单独打包的，不太需要另装依赖的（如 docker ），以 api 方式跑，部署会比较简单

如果外包公司提供的在 windows 跑得比较顺，盲猜跟微信 ocr 有关

如果是对物理静态文件的 ocr ，一般都不太多问题，按上述方法做就可以了，github 上搜 umi ocr ，很多项目
如果是针对 stream ，例如网络传送、视频流、摄像头采集，没有物理文件的，这个才复杂些