爱意满满的作品展示区。
taowen

纯浏览器实现的 pdf 转 markdown

  •  
  •   taowen · Apr 13, 2024 · 2152 views
    This topic created in 765 days ago, the information mentioned may be changed or developed.

    主要目的是提取纯文本方便 chatgpt

    https://gist.github.com/taowen/4ce9de62255ded695db106ded4aa18c1

    • pdf.js 可以提取所有的 TextItem 包括文本和包围盒
    • 根据包围盒可以大致判断一下是否换行了
    • 如果一行中包含了公式,那么一行会有很多个 TextItem ,这些行会称之为 complex 的行
    • 多个连续的 complex 行变成了 complex 块
    • 如果有 claude 3 haiku 的账号会对 complex 块做一次基于图片的 OCR 来清洗嘈杂的带公式的文本

    除了 pdf 还有几个纯浏览器的小工具方便用来提取纯文本

    2 replies    2024-04-13 23:45:38 +08:00
    buyno1
        1
    buyno1  
       Apr 13, 2024
    油管那个总提示 复制了 0 字符
    不知什么原因
    taowen
        2
    taowen  
    OP
       Apr 13, 2024
    @buyno1 你得先点一下 youtube 的 “内容转文字” 按钮
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5685 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 71ms · UTC 03:07 · PVG 11:07 · LAX 20:07 · JFK 23:07
    ♥ Do have faith in what you're doing.