V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
aec4d
V2EX  ›  分享创造

让你的扫描版 PDF 能够被搜索,顺便求职深圳 Python 后台开发岗

  •  1
     
  •   aec4d ·
    ficapy · 2018-04-02 09:02:20 +08:00 · 4338 次点击
    这是一个创建于 2429 天前的主题,其中的信息可能已经有所发展或是发生改变。

    先放地址 https://ocr.ficapy.com/

    后台实现详情见 https://www.ficapy.com/2018/04/01/pdfaddtext_architecture/

    因为个人有几本扫描版的 PDF 书籍,无法进行文本内容搜索。同时逛 V2 的时候也发现有人有同样的问题,比如https://www.v2ex.com/t/420491https://www.v2ex.com/t/408071。于是用 Python 写了一个小工具,原理就是调用 OCR 接口得到图片识别结果。将结果作为隐藏文字层放置到对应文字的上方,这样 PDF 阅读器就可以搜索到相应的文本了

    最开始只是写了一个 Python 脚本。后来写成了一个 web 服务,使用 C++编译成 wasm 让 PDF 修改操作在浏览器端执行避免了文件的下载。虽然同时使用了多家 OCR 的服务,但是处理任务数量依然有限。只能限制每个 PDF 文件不超过 20 页,提供 Python 小脚本,可以自己注册百度的免费服务本地执行转换

    后端代码暂时没有开源出来,过段时间会~~~

    最后求个深圳 Python 开发岗,3 年工作经验,熟悉 Python 了解 Golang。意向为后台开发或者运维平台开发,求大佬推荐

    联系地址(base64)

    微信: RmljYXB5

    邮箱: YWZleGNnQGdtYWlsLmNvbQ==

    第 1 条附言  ·  2018-04-02 12:41:42 +08:00
    机器学习这么火热,顺便问问有没有靠谱的可开发的 OCR 引擎可以折腾。想加上本地 OCR,虽然质量会差一些。但是不必受制于第三方服务,这样就能解开 20 页的限制了
    13 条回复    2018-04-02 22:50:44 +08:00
    lyping
        1
    lyping  
       2018-04-02 10:28:56 +08:00
    喜欢这个工具
    zzzzzdai
        2
    zzzzzdai  
       2018-04-02 12:35:14 +08:00
    先赞
    MemoryCorner
        3
    MemoryCorner  
       2018-04-02 12:36:05 +08:00
    这个还蛮使实用的
    Arnie97
        4
    Arnie97  
       2018-04-02 12:46:09 +08:00 via Android
    支持,居然适配了这么多不同的接口
    congeec
        5
    congeec  
       2018-04-02 13:06:47 +08:00 via iPhone
    前段时间 GitHub 有个类似弄笔记的项目挺火
    Acrobat 能实现,不过收费
    aec4d
        6
    aec4d  
    OP
       2018-04-02 13:48:20 +08:00
    @Arnie97 还好,各家的接口基本接入都很人性化,能找到的我都接入了
    @congeec 弄笔记?没有搜到,可以用 pyqt 封装一下提供 GUI,让用户自己输入百度的密钥
    standin000
        7
    standin000  
       2018-04-02 14:11:56 +08:00
    支持楼主下。
    wxl1380610
        8
    wxl1380610  
       2018-04-02 16:30:12 +08:00
    这个挺有用的 。
    devlnt
        9
    devlnt  
       2018-04-02 18:36:34 +08:00
    本地 ocr 的话,不考虑中文,用 tesseract 试试看。楼上也有提到 acrobat,识别率和位置啥的都是超棒的,只是 com 接口貌似不能调用识别的插件,楼主可以尝试着研究下
    bikkgry
        10
    bikkgry  
       2018-04-02 19:56:09 +08:00
    这方面最强的是 ABBYY FineReader14 了吧。不过售价感人。http://www.abbyy.cn/finereader/
    xiaofengchen
        11
    xiaofengchen  
       2018-04-02 20:25:20 +08:00 via Android
    aec4d
        12
    aec4d  
    OP
       2018-04-02 20:41:52 +08:00
    bikkgry
        13
    bikkgry  
       2018-04-02 22:50:44 +08:00 via iPad
    @aec4d 我也没找到很好用的价格可以接受的服务(这个 ABBYY 中文识别率也很强 业内领先水平)
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4627 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 10:10 · PVG 18:10 · LAX 02:10 · JFK 05:10
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.