V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
JYL888
V2EX  ›  问与答

有没有精通 PDF 的大佬, PDF 教材,有没有办法,自动识别或者提取教材内容里的各级标题,生成书签或者生成思维导图,这样学习起来,整体化、结构化、树状图思维,提高效率!

  •  
  •   JYL888 · 2020-08-29 16:44:54 +08:00 · 3582 次点击
    这是一个创建于 1548 天前的主题,其中的信息可能已经有所发展或是发生改变。
    PDF 教材没有书签,都是正文,我想让他自动识别或提取教材内容里的各个级别的标题,然后生成书签或者一键生成思维导图,省的我一个一个的去设置书签,四百多页,很麻烦!

    书籍逻辑是:
    第一章。。。 这种标题设为 1 级
    第一节 。。。 这种标题设为 2 级
    一、。。。 这种标题设为 3 级
    (一)。。。 这种标题设为 4 级
    1. 。。。 这种标题设为 5 级
    1 )。。。 这种标题设为 6 级
    1 )。。。 这种标题设为 7 级


    这些编号后面的内容,都是黑体字,我想让书籍,自动识别,自动生成书签或者大纲,或者提取出来,或者像思维导图一样,

    书籍的目录只到 3 级, 不够细化,我想细化到最低一级,这样子,就可以对书籍的整个结构,一目了然!!!!


    ![QQ 截图 20200829162143.png]( )
    ![171258hqmqtjzn5h8jnqtx.png]( )
    34 条回复    2020-08-30 23:59:49 +08:00
    HENQIGUAI
        1
    HENQIGUAI  
       2020-08-29 16:56:46 +08:00
    书不是越读越薄么,要这么多标题有什么用,顺便推荐一本《如何阅读一本书》
    ronman
        2
    ronman  
       2020-08-29 16:59:17 +08:00 via Android
    mark 一下,找到麻烦说一下。
    另外,其实做自己的话还是自己手打一下,顺便加深印象了。
    enchilada2020
        3
    enchilada2020  
       2020-08-29 17:01:43 +08:00 via Android
    这种扫描的好像都得手动加吧
    JYL888
        4
    JYL888  
    OP
       2020-08-29 17:07:56 +08:00
    @ronman 四百多页,狂多的各级标题!
    JYL888
        5
    JYL888  
    OP
       2020-08-29 17:08:27 +08:00
    @HENQIGUAI 把标题弄出来,就树状思维,就知道某个知识点,在哪个框架下面
    yangwcool
        6
    yangwcool  
       2020-08-29 17:11:46 +08:00 via Android
    试试 PDF 补丁丁。这个软件有按标题生成书签的功能。不过我觉得不好用。
    L2AKnG8GXx60bc6P
        7
    L2AKnG8GXx60bc6P  
       2020-08-29 17:12:03 +08:00 via iPhone   ❤️ 1
    我啊,但是不感兴趣,不过你要是会编程的话随找个库转成 txt,再写个正则就行了,不过还需要人工筛选一下,要想做的完美、自动分级的话坑比较多,可以做成产品卖钱了。
    JYL888
        8
    JYL888  
    OP
       2020-08-29 17:27:20 +08:00
    @yangwcool 我也试过,不行
    TigerK
        9
    TigerK  
       2020-08-29 18:22:17 +08:00
    没有自动的啦,手动的可以用 bookxnote 来自己做
    JYL888
        10
    JYL888  
    OP
       2020-08-29 18:27:33 +08:00 via Android
    @TigerK 转成 word 去搞
    hoyixi
        11
    hoyixi  
       2020-08-29 18:28:45 +08:00
    有些阅读器,可以自己添加,读一节,加一节。

    你这好像是扫描然后做成的电子书,做的人没做书签目录。
    abc11
        12
    abc11  
       2020-08-29 18:38:21 +08:00
    用 iText7 做过类似的功能,几十行代码搞定
    JYL888
        13
    JYL888  
    OP
       2020-08-29 18:51:49 +08:00 via Android
    @hoyixi 是,没有书签,我只想把所有标题提取出来
    JYL888
        14
    JYL888  
    OP
       2020-08-29 18:51:57 +08:00 via Android
    @abc11 怎么搞
    carlclone
        15
    carlclone  
       2020-08-29 19:13:22 +08:00 via Android
    论坛里有大佬做过,忘记了
    JYL888
        16
    JYL888  
    OP
       2020-08-29 19:18:30 +08:00 via Android
    @carlclone 真假,v2ex 里吗?
    akring
        17
    akring  
       2020-08-29 19:48:45 +08:00
    MarginNote 自己慢慢标注吧,反正你也得通看一遍不是?
    JYL888
        18
    JYL888  
    OP
       2020-08-29 19:54:55 +08:00
    @ronman #2 https://github.com/zwxbest/autobookmark
    github 上有个好像能实现,但是我不知道,这怎么用,怎么操作
    jin7
        19
    jin7  
       2020-08-29 21:32:59 +08:00
    pdf 没有书签 需要书签? 我帮你弄 几块钱一次 行吗>>>>
    jin7
        20
    jin7  
       2020-08-29 21:33:17 +08:00
    JYL888
        21
    JYL888  
    OP
       2020-08-29 21:36:47 +08:00
    @jin7 #19 我这个比较复杂,不是淘宝上那种几块钱能搞的定的
    green15
        22
    green15  
       2020-08-29 21:37:43 +08:00 via iPhone
    自动生成目录,我见过;原理类似一些小说阅读器一样。一般是通用格式转化成 PDF 的正版电子书。至于图片扫描版的盗版 PDF,最起码把 OCR 搞好吧。
    生成思维导图……异想天开
    jin7
        23
    jin7  
       2020-08-29 21:38:55 +08:00
    @JYL888 #21 你这个又不复杂 再说你那个目录网上书店都有 复制粘贴
    JYL888
        24
    JYL888  
    OP
       2020-08-29 21:39:31 +08:00
    @green15 #22 OCR 过的,支持文字搜索的
    JYL888
        25
    JYL888  
    OP
       2020-08-29 21:40:51 +08:00
    @jin7 #23 前面的目录只细分到 一、这级标题,我要到 1) 最低级的标题
    ffxrqyzby
        26
    ffxrqyzby  
       2020-08-29 22:23:59 +08:00
    你可以试试 margin note
    我都是先用 margin note 生成标题, 然后在里面做笔记, 做关联
    Cielsky
        27
    Cielsky  
       2020-08-29 22:38:19 +08:00 via Android
    OCR 把标题列出来,手动指定页数,有个软件可以把标题直接插到 PDF 里的,😓名字给忘了,叫什么 toPDF
    jay0726
        28
    jay0726  
       2020-08-30 07:15:08 +08:00 via Android
    好像是之前从其他帖子看到的,还没试过
    https://krasjet.com/voice/pdf.tocgen/
    JYL888
        29
    JYL888  
    OP
       2020-08-30 11:01:37 +08:00
    @jay0726 应该就是这种思路了,但是好像没有网上好像没有成品软件
    SingeeKing
        30
    SingeeKing  
       2020-08-30 14:47:40 +08:00
    JwhSir
        31
    JwhSir  
       2020-08-30 15:35:24 +08:00
    PdgCntEditor——不完全满足你的要求,是一个手动添加书签的工具,但是相对比较方便了
    K1W1
        32
    K1W1  
       2020-08-30 19:41:37 +08:00
    跟我想法一样,通过标题生成思维导图,但是我用了另一种更简单思路,通过抓豆瓣页面,豆瓣书籍的详情中,大多数都是有目录的(注意并不是都有),然后调用 xmind 的 sdk 生成。文章在这
    https://mp.weixin.qq.com/s/3ywHc9CgWdf_s7e6llqGAA
    krjt
        33
    krjt  
       2020-08-30 23:53:55 +08:00
    @JYL888 ?我的 pdf.tocgen 就是面向用户的,虽然完全是命令行操作。模仿第一节的 overview 里的指令基本就可以了。安装指令见第二节。
    krjt
        34
    krjt  
       2020-08-30 23:59:49 +08:00
    @JYL888 如果没有编程经验的话,首先安装 Python 3 [1] 以及 pip [2],之后在命令行输入

    pip install -U pdf.tocgen

    接下来按照 #28 或者 #30 里的指令输入就可以了。

    [1]: https://www.python.org/downloads/windows/
    [2]: https://pip.pypa.io/en/stable/installing/
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   945 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 22:22 · PVG 06:22 · LAX 14:22 · JFK 17:22
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.