V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
DaguguJ
V2EX  ›  问与答

寻找一个比较成熟的 OCR 中文训练模型

  •  
  •   DaguguJ · Jun 4, 2020 · 1760 views
    This topic created in 2158 days ago, the information mentioned may be changed or developed.

    environment: 一直在做 python,之前没接触机器学习相关项目,然而现在任务有关 ocr 。 what i need: 一个月左右的时间,识别 pdf 中的文字,支持中英文数字即可 what i do: 1.识别 pdf 格式的文本信息(普通的 pdf 都可以轻松做到) 2.针对 pdf 中的图片,或者本身就是扫描文件,进行了 ocr 识别 3.ocr 中,使用 github 开源的 tesseract,和官方的 chi_sim,chi_sim_3 和 chi_tra 包,真实环境识别起来惨不忍睹,所幸已经初步有自己训练的思路(导入常用的汉字,输出各种字体的图片写脚本训练)。 what i want: 希望有经验的朋友帮我分析一下,一个月的时间怎么训练会更快更好,大概能有什么效果。同时,如果有已经成熟的 OCR 解决方案,或已经训练得比较成熟的 traindata 包资源,推荐一下,谢谢大家。

    No Comments Yet
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2507 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 34ms · UTC 12:32 · PVG 20:32 · LAX 05:32 · JFK 08:32
    ♥ Do have faith in what you're doing.