公司做的是美团业务,需要定期解析一批美团的订单截图(也有一些是手机相机拍的订单页面图片),提取出其中的订单号码。 我试用了下腾讯的 ocr 识别成功率很高,就是太贵了,图片量很大遭不住。哪位老哥研究过 OCR ,能不能推荐一个适合本地部署的,公司有 5060 显卡。
1
superhuai 5 小时 38 分钟前
偷偷摸摸用之前微信提取的那个 ocr , 应该不要钱。
|
2
Wao 5 小时 36 分钟前
deepseek ocr
|
3
Mogugugugu 5 小时 30 分钟前 Paddle OCR 试试
|
4
66beta 5 小时 23 分钟前
听上去 Gemini 本地模型 Gemma 4 就能做?而且显卡错错有余
|
5
Leon6868 4 小时 35 分钟前
也许用多模态大模型比普通 OCR 好,收集拍摄的订单图片对于基于文字分隔的 OCR 而言还是太难了
|
6
raptor 4 小时 30 分钟前
@Mogugugugu 百度这个确实还行
|
7
diudiuu 4 小时 18 分钟前
gemma+ocr 一套
https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF/tree/main mmproj-BF16.gguf 这个是图片模型 |
8
honda720 4 小时 18 分钟前
Paddle OCR 就是干这个的,5060 应该能搞个稍微好点的
|
9
xyooyx 4 小时 11 分钟前
Topdu/OpenOCR 前段时期试了个小型的,效果不错
|
10
defunct9 4 小时 10 分钟前
mmproj-BF16.gguf 这个是多模态用的,https://rendoumi.com/posts/20260409-gemma4_install/
|
11
wnpllrzodiac 4 小时 8 分钟前
rapid OCR
|
12
cheng6563 4 小时 5 分钟前
跑个 qwen 看效果怎样。
|
13
labubu 4 小时 1 分钟前
百度 Paddle server 版本
|
14
iorilu 3 小时 55 分钟前
关注下, 模型太多了
现在有什么排行榜或确认的评测, 那几个模型领先吗 |
15
TuringGooner 3 小时 50 分钟前
之前不是有大佬逆向出来一个微信的 OCR 组件,纯算法的
|
16
Seanfuck 3 小时 49 分钟前
Paddle OCR 基本上最强,有 cpu 版本,有现成的容器镜像。
|
17
picone 3 小时 43 分钟前
paddle OCR ,性能也不错
|
18
BlueSkyXN 3 小时 30 分钟前
我一般用 MAC 自带的
|
19
pandaPapa 3 小时 27 分钟前
deepseek ocr 好像免费的
|
20
SmallBlueZhao 3 小时 22 分钟前
|
21
whitewatercn 2 小时 53 分钟前
之前试过,paddle-ocr-vl1.5 足够好用,且开销不大,跟着这两个教程玩就足够了
先部署 https://forum.beginner.center/t/topic/2677 再调用 https://forum.beginner.center/t/topic/2681 |
22
whitewatercn 2 小时 51 分钟前
@SmallBlueZhao #20
有一说一百度在 ocr 方面的积淀很深,不知道多少年前就开始提供 ocr api 了,大模型出来以前,他们的 api 就很好用 |
23
tianjiyao 2 小时 8 分钟前
@SmallBlueZhao 这个你别说 paddle OCR 是这个 行业的翘首。。。百度这个是真的不错。更加厌恶肉饼了。。。。。 多好的牌。。打成这样子稀烂
|
24
ShawnShi PRO https://aistudio.baidu.com/paddleocr 提供免费服务 效果不错的
|
25
mashimaroinfo1 1 小时 56 分钟前
|
26
Les1ie 1 小时 39 分钟前
直接用 paddleocr ,或者用基于他而开的框架 rapidOCR 。开发和部署都超级简单,不吃资源,比如我上个月搓的简易验证码识别,简单粗暴又高效 https://github.com/IanSmith123/easy_captcha :)
|
27
livelyyongheng1 1 小时 29 分钟前
那必然是 paddle
|
28
NizumaEiji 1 小时 21 分钟前
paddle ocr 吧 日常用比较稳
没必要上多模态的 llm 吧 |
29
AiBoy 23 分钟前
识别中文手写最强的是谁呢?
|
30
superPONY 2 分钟前
巧了,最近在做的项目刚好测了几个多模态/OCR 模型,你可以参考我的项目 readme 文档,https://github.com/RAGDock/RAGDock 。有用的的话求个 Star 哈哈哈
|