V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
puduhe1
V2EX  ›  程序员

PDF 查看是正常中文,复制或转 html 出来内容就是乱码,有办法将之转成正常的中文字符吗?

  •  
  •   puduhe1 · 2021-04-08 10:33:12 +08:00 · 755 次点击
    这是一个创建于 1323 天前的主题,其中的信息可能已经有所发展或是发生改变。
    原因在于 PDF 内存储的是特殊字体

    字体文件在这儿:
    https://github.com/kefengzhang/alibaba_copy/blob/master/0.ttf

    在打开 PDF 看到是:账号 这两个字,选中复制出来是:衠뚽

    然后我用 wps 打开,他提供了一个功能 pdf 转 excel,或以转出正常的中文字符



    除了 OCR 视别,还有别的方式转换吗?
    目前尚无回复
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1694 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 16:48 · PVG 00:48 · LAX 08:48 · JFK 11:48
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.