• 请不要在回答技术问题时复制粘贴 AI 生成的内容
Myprincess
V2EX  ›  程序员

如何提取 PDF 文档中的文字-(备注:文字被转曲线了)

  •  
  •   Myprincess · Oct 18, 2020 · 4874 views
    This topic created in 2048 days ago, the information mentioned may be changed or developed.

    文档中的文字排版不规则。有没有好的软件推荐。

    37 replies    2020-10-19 20:11:12 +08:00
    Anthropic
        1
    Anthropic  
       Oct 18, 2020
    OCR
    Myprincess
        2
    Myprincess  
    OP
       Oct 18, 2020
    @jarry777 ocr 能扫出来吗?这个是说明书。每个字体都是独立的。并且排版很乱。都不在一条直线上。
    yiXu
        3
    yiXu  
       Oct 18, 2020   ❤️ 1
    @Myprincess 试试不要钱的 ocr,我一般电脑的用福昕,手机用白描(免费有次数限制)。其他的也有很多,都试试吧,正确率啥的,一般字是正的,不是奇形怪状,应该都还好,付费的话,应该会提高正确率,但是可能也就那样吧
    jedicxl
        4
    jedicxl  
       Oct 18, 2020
    有什么说明书会排版乱到文字识别都不行的程度?
    那还不如找个非扫描版的说明书来的快了
    gcyrn
        5
    gcyrn  
       Oct 18, 2020
    Adobe Acrobat
    yiXu
        6
    yiXu  
       Oct 18, 2020
    简单方便的小软件的话,天若 ocr 文字识别,免费的,电脑的。收费的是开通功能,但是这个功能是可以调用付费接口,而接口是自己申请的,清楚了再付费。
    Myprincess
        7
    Myprincess  
    OP
       Oct 18, 2020
    @gcyrn 不行,试了。动不了。一个字都动不了。
    jdhao
        8
    jdhao  
       Oct 18, 2020 via Android
    有没有样张看一下?
    lichdkimba
        9
    lichdkimba  
       Oct 18, 2020
    量小的话手打出来可能最快。。
    icyalala
        10
    icyalala  
       Oct 18, 2020
    ABBYY FineReader,可以设置原始字体来扫描
    DreamSpace
        11
    DreamSpace  
       Oct 18, 2020 via Android
    pdf 是一种描述文本书写方式的格式。如果很确定需要处理的是文字而非图片,那可以尝试用 pdf 相关的库解析一下
    yihaomizhijia
        12
    yihaomizhijia  
       Oct 18, 2020
    找个人力成本低的人手打就是了。上万字另说。
    Myprincess
        13
    Myprincess  
    OP
       Oct 18, 2020
    @jdhao
    @DreamSpace
    @icyalala
    文字是被转为图片了。无法改动。用 PDF 软件打开,单字都无法复制。
    tees
        14
    tees  
       Oct 18, 2020
    你这个只能 ocr 了
    dsg001
        15
    dsg001  
       Oct 18, 2020
    天若 5.0,免费,使用百度接口,只要不太过分,识别率还行
    Gathaly
        16
    Gathaly  
       Oct 18, 2020
    投影法更正
    9LCRwvU14033RHJo
        17
    9LCRwvU14033RHJo  
       Oct 18, 2020
    天若、福昕都是完整的软件。有没有可用在程序里的 OCR 库?
    Porphet
        18
    Porphet  
       Oct 18, 2020   ❤️ 1
    腾讯开放的 ocr,优图 ocr,还有其他像阿里百度都有免费的 ocr,准确度很高
    Arrowing
        19
    Arrowing  
       Oct 18, 2020
    我前几天也在找,找了很多个试了,发现这个识别率还可以,不过还是不满足我的要求,你可以试试看。
    https://zhcn.109876543210.com
    RioDoubleD
        20
    RioDoubleD  
       Oct 18, 2020
    上个图看看,abbyy 可以调图片弯曲
    rund11
        21
    rund11  
       Oct 18, 2020 via Android
    这种复杂文字 ocr 就要用百度,腾讯的识别接口,识别率还是很高的
    icyalala
        22
    icyalala  
       Oct 18, 2020   ❤️ 1
    @Myprincess 说的就是这种情况啊,用 ABBYY FineReader 来进行 OCR,识别图片中的文字。你可以设置一个原始字体或者比较接近的中文字体,那样识别率会更高。
    9LCRwvU14033RHJo
        23
    9LCRwvU14033RHJo  
       Oct 18, 2020
    @Porphet 都是 API 吗?有没有不依赖网络的能独立运行的库?
    IsA26hN4DcQDS7Z9
        24
    IsA26hN4DcQDS7Z9  
       Oct 18, 2020
    office 手机版扫描试试
    bamboopainter
        25
    bamboopainter  
       Oct 18, 2020 via iPhone
    打印出来,再用 scansnap 扫成电子版
    Myprincess
        26
    Myprincess  
    OP
       Oct 18, 2020
    @Arrowing 试了,全黑色底文字有些识别不了。左右黑色 ,图片不会被切,上下黑,图片会被切掉。其它文字很棒。
    miaomiao888
        27
    miaomiao888  
       Oct 18, 2020
    你这帖子中有贴图吗,得看看是哪样的字吧。

    可以试试 PandaOCR,里面有 20 来个 OCR 引擎你可以逐个试试看哪个更适合:github.com/miaomiaosoft/PandaOCR

    要是过于不规则的字可能要用离线 OCR 自己训练了
    Lemeng
        28
    Lemeng  
       Oct 18, 2020
    有一大堆吧。51 破解?
    dabaibai
        29
    dabaibai  
       Oct 18, 2020 via Android
    什么曲线? svg ?
    flynaj
        30
    flynaj  
       Oct 18, 2020 via Android
    qq 带的 OCR Ctrl+ALT+O
    dadaslele
        31
    dadaslele  
       Oct 18, 2020
    在线版本的,图片都能给你抠出来,支持 pdf2word,pdf2ppt 等等
    https://easypdf.com/
    Pichai
        32
    Pichai  
       Oct 19, 2020
    https://smallpdf.com/cn
    你试试这个网站,上面有 pdf 转 word 。还有在线编辑 pdf 的。转换之前是每天可以免费使用两次该功能,其他的暂时不清楚。希望能帮到你。
    Porphet
        33
    Porphet  
       Oct 19, 2020
    @user8341 那估计需要你自己训练一个 ocr 的模型了,现在主流算法都换成神经网络了吧,我是做 nlp 的所有不了解
    dany813
        34
    dany813  
       Oct 19, 2020
    @dadaslele 刚转换一个 PDF,排版乱了
    9LCRwvU14033RHJo
        35
    9LCRwvU14033RHJo  
       Oct 19, 2020
    @Porphet 很想知道有没有训练好的,27 楼那个不知道是不是。
    Porphet
        36
    Porphet  
       Oct 19, 2020
    @user8341 不是、他也是调用 api,训练好的不可能开源吧,实在想用可以去搜搜论文
    kasusa
        37
    kasusa  
       Oct 19, 2020
    用用 QQ 的 OCR,便捷,免费,在截图功能里面.
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5591 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 175ms · UTC 01:47 · PVG 09:47 · LAX 18:47 · JFK 21:47
    ♥ Do have faith in what you're doing.