V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
summerzhen
V2EX  ›  问与答

如何提取 pdf 中的图片(svg\eps 矢量图以及 pdf 格式这种非常规图片格式)

  •  
  •   summerzhen · Oct 9, 2023 · 1449 views
    This topic created in 937 days ago, the information mentioned may be changed or developed.
    在论坛和社区种寻找过一些方法,但这些使用 PyPDF 和 PyMuPDF 库的方法基本只能提取 pdf 的 png ,jpg 格式的图形。
    https://www.geeksforgeeks.org/how-to-extract-images-from-pdf-in-python/
    https://stackoverflow.com/questions/2693820/extract-images-from-pdf-without-resampling-in-python

    但 pdf 以下两种图片会提取不到:
    1.以 svg 、eps 嵌入的矢量图(如曲线图)
    2.以 pdf 格式嵌入的图(几张图组合在一起并有箭头等标记最终以 pdf 保存)

    有什么办法可以解决以上问题吗
    2 replies    2023-10-10 20:58:49 +08:00
    passive
        1
    passive  
       Oct 9, 2023 via Android
    手动:adobe reader 里 zoom+resize 窗口只显示表格,然后打印当前 view 成 pdf

    机动:改变 margin box ,嫌大就用工具把 box 外面的优化了
    summerzhen
        2
    summerzhen  
    OP
       Oct 10, 2023
    手动可以先 pass 了,想要批量的方式。
    机动:未曾想到的道路,但随手打开了一个 pdf ,图片没有作为元素节点存在啊,一页就是一个最末级的 div
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   975 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 23:44 · PVG 07:44 · LAX 16:44 · JFK 19:44
    ♥ Do have faith in what you're doing.