V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
forkon
V2EX  ›  iOS

找高人帮忙写一个 iOS 平台上的 PDF 解析器,有酬!

  •  
  •   forkon · 2018-01-30 12:03:01 +08:00 · 3834 次点击
    这是一个创建于 2473 天前的主题,其中的信息可能已经有所发展或是发生改变。

    想将 PDF 页面上的文本和图片提取出来,并按它们出现的先后顺序进行排序。

    在网上找了很多方案都达不到理想的效果:

    1. 苹果官方的 PDFKit 可“准确”(不含不必要的换行符)地提出页面上的文本,但是无法提取图片, 提取出的文字也不含其在页面上的位置信息。
    2. PSPDFKit 可提出含位置信息的文本,但它是按行而不是按段落提取,此外它还可以提取页面上的图片,不过不完美,时有提取不到的情况发生。

    还试了其它的一些 PDF 资源提取工具,发现取出来的文本都含有不必要的按行符,页面上的图片也不是所有的都能取到。

    现在想找人写一个可以用在我的 iOS 项目里的 PDF 解析器,开源闭源都可以,有报酬,可开价。

    关于这个解析器,我希望给它一个 PDF 文档和指定的页码就能返回一个包含排好序的文本和图片信息(如果有的话)的数组。

    15 条回复    2018-01-31 00:11:37 +08:00
    laobaozi
        1
    laobaozi  
       2018-01-30 14:27:16 +08:00
    如果没找到合适的 iOS 提取,是不是可以考虑服务器提取之后返回
    forkon
        2
    forkon  
    OP
       2018-01-30 14:28:34 +08:00
    @laobaozi 这也是一个思路,不过我想让我的 App 离线也能用。
    forkon
        4
    forkon  
    OP
       2018-01-30 16:00:21 +08:00
    @laobaozi 谢谢啦 不过这个我已经看过了 讲得不够深入

    发现 pdf 的解析真的很复杂……
    shuson
        5
    shuson  
       2018-01-30 16:36:34 +08:00
    forkon
        6
    forkon  
    OP
       2018-01-30 17:03:05 +08:00
    @shuson 我要处理的是非扫描生成的 pdf 所以用不上 ocr
    3a3Mp112
        7
    3a3Mp112  
       2018-01-30 17:05:02 +08:00
    你这个活,放在 V2EX 要 5W, 猪八戒都要 1W
    forkon
        8
    forkon  
    OP
       2018-01-30 17:44:49 +08:00
    @3a3Mp112 你能写吗
    znood
        9
    znood  
       2018-01-30 18:07:43 +08:00 via iPhone
    转 word ?
    3a3Mp112
        10
    3a3Mp112  
       2018-01-30 19:45:35 +08:00
    @forkon 重新想了一下 ,没什么好思路,写不出。 猪八戒 2 万可以试试。
    forkon
        11
    forkon  
    OP
       2018-01-30 21:40:19 +08:00
    @znood 每打开一个都转一遍? iOS 平台上有好用的 pdf 转 word 的 lib ? word 的解析很容易?
    yyrj
        12
    yyrj  
       2018-01-30 22:04:03 +08:00 via iPhone
    5 万可以试试
    hackpro
        13
    hackpro  
       2018-01-30 22:11:17 +08:00 via iPhone
    有无 PDF 样张提供 是否需要处理页眉页脚脚注页码信息,可以尝试下
    forkon
        14
    forkon  
    OP
       2018-01-31 00:07:30 +08:00
    @hackpro 只要不是扫描类的 pdf 都可以 只好是能把页眉页脚脚注页码信息去掉只保留正文
    forkon
        15
    forkon  
    OP
       2018-01-31 00:11:37 +08:00
    @yyrj 你要是能做得比 PSPDFKit 好,然后像他们那内闭源卖 license,何止赚 5 万?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5319 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 07:26 · PVG 15:26 · LAX 23:26 · JFK 02:26
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.