V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Morrowless
V2EX  ›  外包

一个 OCR 项目,初步预算 1500,搭配相应的查询工具。

  •  
  •   Morrowless · 328 天前 · 1803 次点击
    这是一个创建于 328 天前的主题,其中的信息可能已经有所发展或是发生改变。

    要求

    接近 1000 万张不同分辨率的图片,其中某个特定分辨率的大概有 300 万左右。
    图片上固定位置有类似水印相机的附加文字。
    对附加文字进行识别,用识别内容重命名图片,分文件夹归类整理。

    一个查询工具,通过文字查询符合条件的图片,可预览可批量导出。
    需要至少三个查询条件。

    识别率要求至少 95%。越高越好。

    现状

    淘宝上找人用 PaddleOCR 跑了下,识别率只有 90%左右。已放弃。
    希望能使用 PaddleOCR 或者其他类似开源项目继续优化将识别率提升上去。
    如果开源项目实在不行,不排除使用阿里、百度之类付费 OCR 服务的可能。

    做过 OCR 有兴趣的朋友请带 ID 加我: TW9ycm93bGVzcw==

    谢谢大家。

    13 条回复    2024-01-01 23:12:56 +08:00
    sltkzbw
        1
    sltkzbw  
       328 天前
    不知道你具体遇到了什么问题,如果是文字处于图像固定位置的话可以先按大致区域截下图再走 OCR ,原图直接上可能检测会不准,识别模型按你的描述有 90%准确率那我估计就是正常打印体,应该问题不大
    zjcKD
        2
    zjcKD  
       328 天前
    这个有现成的云服务吧?
    youyang
        3
    youyang  
       328 天前
    @zjcKD 这预算感觉用云服务更合适
    Morrowless
        4
    Morrowless  
    OP
       328 天前 via Android
    @sltkzbw 服务器崩溃,数据恢复后目录结构以及文件名丢失,只能通过 OCR 尽量获取可用信息。
    Morrowless
        5
    Morrowless  
    OP
       328 天前 via Android
    @zjcKD 有,贵……
    Morrowless
        6
    Morrowless  
    OP
       328 天前 via Android
    @youyang 这个预算用阿里百度等的 OCR 服务真不够诶
    huangzebang787
        7
    huangzebang787  
       328 天前
    1500 确实预算太低了
    Felix96
        8
    Felix96  
       327 天前 via iPhone
    我最近在做 paddleOCR 项目,我刚刚加你微信了。
    shubiao
        9
    shubiao  
       327 天前 via Android
    说下我知道的,正好我负责对接的百度 ocr ,我司是识别 ui 的设计稿
    100w 次调用,8k+,你这个量得纯费用就 8w ,还不算人工费。

    百度里面有一款指定格式识别,就是类似识别身份证上的身份证号,不过可以自定义位置,可以看下

    ——
    楼上说的截图后识别可以试试
    星火的 gpt 支持传图,企业有 500 万 token 可以试试
    找个便宜的 gpt4 key 服务商,可以试试 gpt4
    多张图截图后合并一次,4 合一,立马省 75%的费用
    shubiao
        10
    shubiao  
       327 天前 via Android
    另外,ocr 出来的东西不可控,比如横线,可能是中划线 下划线 汉字一 等等
    你这种想精确使用识别的文字的情况,很难实现
    zuiyue123
        11
    zuiyue123  
       327 天前
    手里完整模型有一套,可以尝试下
    nyxsonsleep
        12
    nyxsonsleep  
       327 天前
    @shubiao #9 ai 识图能力能有 95%?
    shubiao
        13
    shubiao  
       327 天前 via Android
    @nyxsonsleep 没估,我们识别出来文字也是喂给其他模块使用。
    我们尝试直接用多模态去实现最终功能,效果也挺好。
    一是贵,二是 ocr 文字可以用到很多地方,所以就放弃这个路线了。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2169 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 01:28 · PVG 09:28 · LAX 17:28 · JFK 20:28
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.