V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
zeroze
V2EX  ›  问与答

想提取英文书籍 pdf、mobi 和 epub 中的目录(table of contents)的结构和内容有什么好的方法或现成的工具吗?

  •  
  •   zeroze · May 10, 2019 via iPhone · 2111 views
    This topic created in 2551 days ago, the information mentioned may be changed or developed.

    想提取目录内容请问有什么好的方法?工具?
    求大佬明示?

    5 replies    2019-07-15 16:36:14 +08:00
    colewp
        1
    colewp  
       May 10, 2019 via iPhone   ❤️ 2
    iText 或者 Apache PDFBox,之前毕设做过类似项目
    dsg001
        2
    dsg001  
       May 10, 2019   ❤️ 2
    以前用 python 写过,zipfile 打开 epub,lxml 解析 toc.ncx
    zeroze
        3
    zeroze  
    OP
       May 10, 2019 via iPhone
    @dsg001 准确度大致怎么样啊?有什么坑吗?
    dsg001
        4
    dsg001  
       May 10, 2019   ❤️ 1
    @zeroze 符合标准的 epub 无坑,偶尔有加密的无法读取,用 calibre 去除就行。
    zeroze
        5
    zeroze  
    OP
       Jul 15, 2019
    自己研究了下,比较好的方法貌似是使用 mupdf 自带工具 mutool,具体操作有 stackoverflow 的帖子,自行搜索下
    另外有坑 mutool 提取出来还需要洗
    编码是 utf16 的
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2716 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 33ms · UTC 13:14 · PVG 21:14 · LAX 06:14 · JFK 09:14
    ♥ Do have faith in what you're doing.