V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
hfxsm
V2EX  ›  分享创造

耗时一个月我开发了一个 PDF 转 Word 的在线工具

  •  
  •   hfxsm · 2024-01-19 13:27:16 +08:00 · 9091 次点击
    这是一个创建于 365 天前的主题,其中的信息可能已经有所发展或是发生改变。

    这是一个我花费了数月时间开发的在线 PDF 转换工具pdf2docx.cn,它不仅支持将 PDF 转换为 Word ,还包括 PDF 转 Excel 、PDF 转 PPT 等功能。今天,我想在 V2EX 这个技术社区分享我的项目,并且真诚地希望大家能试用并给出宝贵的反馈和建议。

    项目背景: 我经常遇到需要将 PDF 文件转换为可编辑格式的情况。市面上虽然有许多此类工具,但往往难以满足高效率和高保真的需求。因此,我决定自己动手,打造一个更符合开发者和专业人士需求的工具。

    主要特性:

    • 高保真转换:能够准确保留 PDF 的布局、格式和字体。
    • 多功能性:除了 PDF 转 Word ,还支持 PDF 转 Excel 、PDF 转 PPT ,以及反向转换。
    • 简洁的用户界面:专注于核心功能,避免不必要的复杂性。
    • 优化的转换速度:对于大文件和复杂布局也能快速处理。

    技术挑战: 在开发过程中,我遇到了一些技术挑战,比如如何有效地处理复杂的 PDF 布局,如何确保转换后文档的格式不乱。

    请求大家的反馈:

    • 你在使用过程中遇到了哪些问题?
    • 有哪些功能是你希望添加的?
    • 对于现有的功能,你有什么改进的建议?

    访问链接: www.pdf2docx.cn

    期待大家的回复和讨论!

    78 条回复    2024-05-02 23:14:00 +08:00
    dashupc
        1
    dashupc  
       2024-01-19 13:30:18 +08:00
    打不开啊,老铁
    xunqin
        2
    xunqin  
       2024-01-19 13:32:51 +08:00
    可以的
    hfxsm
        3
    hfxsm  
    OP
       2024-01-19 13:38:39 +08:00
    @dashupc 啊?阿里云买的机器,是一直在转圈吗?
    hfxsm
        4
    hfxsm  
    OP
       2024-01-19 13:39:34 +08:00
    @xunqin 欢迎多体验,免费的哈
    dashupc
        5
    dashupc  
       2024-01-19 13:48:26 +08:00
    上传了个 36M 的卡 90%不动了
    hfxsm
        6
    hfxsm  
    OP
       2024-01-19 13:51:42 +08:00
    @dashupc 收到,我来优化下,36M 的 pdf 文件有点大的,可能需要花点时间转换,下一版本准备把需要转换时长也展示出来。
    jorneyr
        7
    jorneyr  
       2024-01-19 13:53:02 +08:00
    2.3M 的 pdf 转 word ,也是 90% 就卡住了,后端是对 90% 情有独钟吗?
    listenerri
        8
    listenerri  
       2024-01-19 13:55:38 +08:00
    域名挺好
    dashupc
        9
    dashupc  
       2024-01-19 13:56:25 +08:00
    应用文写作…506.pdf 58.7 MB
    转换中
    90%

    删除


    又卡了
    sjqmmd
        10
    sjqmmd  
       2024-01-19 13:56:52 +08:00
    同卡在 90%
    proxychains
        11
    proxychains  
       2024-01-19 13:58:50 +08:00
    ERR_EMPTY_RESPONSE
    LHN
        12
    LHN  
       2024-01-19 13:59:48 +08:00
    45KB 的 pdf 卡主了
    Ghostsss
        13
    Ghostsss  
       2024-01-19 14:00:41 +08:00
    7.7 MB 的文件一样卡到 90%了
    hfxsm
        14
    hfxsm  
    OP
       2024-01-19 14:02:17 +08:00
    家人们,我的小机器好像顶不住大文件转换,等我优化几波再来更新!!!
    wizzer
        15
    wizzer  
       2024-01-19 14:02:26 +08:00
    合肥本地的公司啊
    jstony
        16
    jstony  
       2024-01-19 14:03:34 +08:00
    大家别试了,甲方付款才付到 90%,还有 10%尾款没收到:)
    natsuki22
        17
    natsuki22  
       2024-01-19 14:19:49 +08:00
    你这个网址。。。。。pdf2docx.com 更好用(
    hfxsm
        18
    hfxsm  
    OP
       2024-01-19 14:22:49 +08:00
    @natsuki22 像优秀的网站学习,我这个 pdf 和 office 文件互转
    thanning0
        19
    thanning0  
       2024-01-19 14:25:05 +08:00
    随手转了篇 PDF 文献到 word 试试,除了数学符号公式转换的效果不太好(有的符号居然是图片?),其他的格式,表格,算法框,超链接都挺好的,给楼主点赞。

    建议如果能把数学公式转换处理好,比如把 latex 编译的 pdf 数学公式转成 mathtype 的数学公式就太好了。
    28Sv0ngQfIE7Yloe
        20
    28Sv0ngQfIE7Yloe  
       2024-01-19 14:28:50 +08:00
    stiekel
        21
    stiekel  
       2024-01-19 14:30:53 +08:00
    实测 34.2MB 文件,的确 90%会卡一下,但等一下就成功了。下载也耗了一点时。
    但是……转换完,还是图片——从图片 PDF 变成了图片 Word 文档。
    hfxsm
        22
    hfxsm  
    OP
       2024-01-19 14:32:20 +08:00
    @Morii 这两确实好用。我的做了点新功能,加了去除读写保护。其实也支持传入密码(前端还没加)处理加密的 pdf 。
    hfxsm
        23
    hfxsm  
    OP
       2024-01-19 14:33:09 +08:00
    @stiekel 这个涉及到 OCR 技术,目前还在增加当中。扫描件不太好处理哈。
    natsuki22
        24
    natsuki22  
       2024-01-19 14:42:36 +08:00
    扫描 PDF 挺麻烦的,楼主加油做个谷歌排名第一的(
    oliver2020
        25
    oliver2020  
       2024-01-19 14:49:09 +08:00
    支持一下
    leaf
        26
    leaf  
       2024-01-19 14:54:20 +08:00
    这不是一个红海市场了么?怎么还在不断开发,有啥特色功能吗?
    hfxsm
        27
    hfxsm  
    OP
       2024-01-19 15:01:10 +08:00
    @leaf 准备加些特色功能:
    1 、对于受保护的 pdf 不能转换,去除 pdf 的保护,其他的工具没有
    2 、支持扫描件,用 OCR 技术实现还原,再导出 word
    natsuki22
        28
    natsuki22  
       2024-01-19 15:05:20 +08:00
    我是做这个方面软件推广的,1 的话一把一把的网页工具,2 的话能够做的很好的现在都没有
    2 的话有个大问题是文字识别的多语言。。。
    natsuki22
        29
    natsuki22  
       2024-01-19 15:06:19 +08:00
    能把一个小语种做好就算特性了(英语的识别已经没啥大问题了
    muyangren
        30
    muyangren  
       2024-01-19 15:19:30 +08:00
    6.4 MB 文件卡 90%不动了
    mdyh
        31
    mdyh  
       2024-01-19 15:23:35 +08:00
    一点击开始转,就弹没了
    metalvest
        32
    metalvest  
       2024-01-19 15:29:02 +08:00
    临时有转换需求的话,from pdf2docx import parse 就行了
    supuwoerc
        33
    supuwoerc  
       2024-01-19 15:34:55 +08:00
    为啥转出来多了一页空白页...
    hfxsm
        34
    hfxsm  
    OP
       2024-01-19 15:43:38 +08:00
    @natsuki22 大哥,哪些小语种需求相对多一些,准备排个计划
    oliver2020
        35
    oliver2020  
       2024-01-19 15:46:54 +08:00
    试了一下,都是几 M 的文件,有时候显示接口调用失败
    6581
        36
    6581  
       2024-01-19 15:59:25 +08:00
    花时间做这个是为了赚钱吗?还是怎样呢?感觉市场上已经有很多这种工具了。
    Felldeadbird
        37
    Felldeadbird  
       2024-01-19 16:02:42 +08:00
    效果不错,基本都可以转文本。就是转换速度慢了一点,可以接受。
    oliver2020
        38
    oliver2020  
       2024-01-19 16:04:44 +08:00
    113MB 扫描件,转换过程中自动把文件删除哈,一点征兆都没提示
    fru1t
        39
    fru1t  
       2024-01-19 16:08:28 +08:00
    还不错,试了一个纯文本的 pdf
    rupert
        40
    rupert  
       2024-01-19 16:15:28 +08:00
    我也做的一个小程序
    1018ji
        41
    1018ji  
       2024-01-19 16:31:02 +08:00
    我已阅读并遵守《信息网络传播权保护条例》

    就不能翻译下 H 啊哈哈
    zzz22333
        42
    zzz22333  
       2024-01-19 16:38:50 +08:00
    最近遇到一个硬需求,下了几个 pdf 文档,都没有目录,有时候想快速翻到某一个章节,就挺麻烦了,不知道楼主能不能做一下这个功能。
    Sirius8
        43
    Sirius8  
       2024-01-19 16:46:00 +08:00
    测试了下,效果最好的是 ilovepdf ,其次是楼主的这个和 smallpdf 。
    提个需求,希望可以支持 pdf chatgpt 翻译,最好可以自己填写 key 的
    natsuki22
        44
    natsuki22  
       2024-01-19 16:52:13 +08:00   ❤️ 1
    pdf 文档的目录自动创建!这个确实
    hututu888
        45
    hututu888  
       2024-01-19 17:38:59 +08:00
    啊,为啥我网址也打不开
    bug123
        46
    bug123  
       2024-01-19 17:44:29 +08:00
    楼主要做多语言的话最好别用 cn 域名,另外首页自动跳转对 SEO 不友好
    jiangk
        47
    jiangk  
       2024-01-19 18:02:21 +08:00
    打不开了
    hfxsm
        48
    hfxsm  
    OP
       2024-01-19 18:03:13 +08:00
    @bug123 首页应该怎么做啊。后端开发真的不太懂
    hfxsm
        49
    hfxsm  
    OP
       2024-01-19 18:16:52 +08:00
    @zzz22333 自动目录是吧,好的,我研究下试试。
    hfxsm
        50
    hfxsm  
    OP
       2024-01-19 18:20:35 +08:00
    @Sirius8 好的,下一步就准备把翻译加上,不过要支持 chatgpt 得在海外部署一个服务器了,国内的翻译 API 主要是阿里、腾讯、百度、讯飞提供的机器翻译的接口,百度、讯飞、阿里都有大模型接口,也可以支持翻译。
    beetlerx
        51
    beetlerx  
       2024-01-19 18:37:39 +08:00
    有开源的, 功能也挺多, 直接可以 docker 搭建
    https://github.com/Stirling-Tools/Stirling-PDF
    我用这个建了一个 自用的
    pdf.xandar.pro
    Droog
        52
    Droog  
       2024-01-19 19:11:51 +08:00
    试了下,蛮好用的。
    zhou00
        53
    zhou00  
       2024-01-19 19:19:16 +08:00
    感觉效果还不错,点赞。 顺便问下,技术栈用的是什么
    akira
        54
    akira  
       2024-01-19 20:07:15 +08:00
    @leaf 其实并不红,做的好的基本没有。 都是特么的截图
    hfxsm
        55
    hfxsm  
    OP
       2024-01-19 20:21:25 +08:00 via iPhone
    @beetlerx 功能挺全的,但是这种基于 libreoffice 转换效果都不太行。
    hfxsm
        56
    hfxsm  
    OP
       2024-01-19 20:22:38 +08:00 via iPhone
    @akira 对的,不少基于截图转的,或者转出来没有排版,没法使用。
    zsj1029
        57
    zsj1029  
       364 天前 via iPhone
    Pdf24 这个网站,看看能不能做一个
    Aloento
        58
    Aloento  
       364 天前
    @wizzer #15 合肥主一信息技术有限公司
    pianoer88
        59
    pianoer88  
       364 天前 via Android
    顶一个
    Pepsigold
        60
    Pepsigold  
       364 天前 via Android
    @hfxsm 你可以用过内中转接口?
    gby
        61
    gby  
       364 天前
    pdf 转 word ?不是直接用 word 打开 pdf 文件就行了么。
    jixiaopeng
        62
    jixiaopeng  
       364 天前 via iPhone
    我也开源了一个项目,但不会推广,项目自我感觉很好,哎
    haoxuexiaoyao
        63
    haoxuexiaoyao  
       364 天前
    我只需要提取里面的每一页的表格到 excel 的话可以的么
    metalvest
        64
    metalvest  
       364 天前 via Android
    @metalvest 这个 python 库转换出来的基本可以保持大致格式,自测转了一个四百多页的单双栏混合带大量插图的 pdf 大概每秒钟一页的速度。
    fzcf
        65
    fzcf  
       363 天前
    请问大概是什么技术路线,方便分享下吗?
    hfxsm
        66
    hfxsm  
    OP
       362 天前
    @zsj1029 可以的, 楼上同学提到 https://github.com/Stirling-Tools/Stirling-PDF 就可以实现。但是使用的 LibreOffice 是不能保持排版效果。

    Conversion Operations
    Convert PDFs to and from images.
    Convert any common file to PDF (using LibreOffice).
    Convert PDF to Word/Powerpoint/Others (using LibreOffice).
    Convert HTML to PDF.
    URL to PDF.
    Markdown to PDF.
    hfxsm
        67
    hfxsm  
    OP
       362 天前
    @oliver2020 太大了,我加下文件大小限制
    hfxsm
        68
    hfxsm  
    OP
       362 天前
    @haoxuexiaoyao 可以啊,用 pdf 转 excel 就行了
    hfxsm
        69
    hfxsm  
    OP
       362 天前
    @fzcf 可以的,过段时间准备做一波分享
    j6711
        70
    j6711  
       362 天前
    挺强的,会有付费计划吗?能买断吗?
    能有客户端离线使用的版本吗?有些资料只能本地处理
    hfxsm
        71
    hfxsm  
    OP
       361 天前
    @j6711 可以聊聊,后续会推出离线版本。
    csx163
        72
    csx163  
       359 天前
    带表格的 pdf 可以转么,目前 pdf 表格转 word 或 excel 市场上没一家能打的
    hfxsm
        73
    hfxsm  
    OP
       359 天前
    @csx163 可以啊,试试,效果非常棒
    a5love3n
        74
    a5love3n  
       306 天前
    老哥,你这个卖源码吗
    halozzz
        75
    halozzz  
       282 天前
    问下老哥,表格转是基于啥技术?
    mclxly
        76
    mclxly  
       279 天前
    扫描 PDF 现在能转么?
    hfxsm
        77
    hfxsm  
    OP
       260 天前
    @a5love3n 上线了 API ,可以接入哈
    hfxsm
        78
    hfxsm  
    OP
       260 天前
    @mclxly 可以,扫描的有两种方案,一种是采用开源的 ocr ,成本就我的开发成本。如果接入大厂的 ocr 比较贵
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2657 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 12:22 · PVG 20:22 · LAX 04:22 · JFK 07:22
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.