想将 PDF 页面上的文本和图片提取出来,并按它们出现的先后顺序进行排序。
在网上找了很多方案都达不到理想的效果:
还试了其它的一些 PDF 资源提取工具,发现取出来的文本都含有不必要的按行符,页面上的图片也不是所有的都能取到。
现在想找人写一个可以用在我的 iOS 项目里的 PDF 解析器,开源闭源都可以,有报酬,可开价。
关于这个解析器,我希望给它一个 PDF 文档和指定的页码就能返回一个包含排好序的文本和图片信息(如果有的话)的数组。
1
laobaozi 2018-01-30 14:27:16 +08:00
如果没找到合适的 iOS 提取,是不是可以考虑服务器提取之后返回
|
3
laobaozi 2018-01-30 15:24:46 +08:00
|
5
shuson 2018-01-30 16:36:34 +08:00
https://github.com/garnele007/SwiftOCR
注意 license |
7
3a3Mp112 2018-01-30 17:05:02 +08:00
你这个活,放在 V2EX 要 5W, 猪八戒都要 1W
|
9
znood 2018-01-30 18:07:43 +08:00 via iPhone
转 word ?
|
11
forkon OP @znood 每打开一个都转一遍? iOS 平台上有好用的 pdf 转 word 的 lib ? word 的解析很容易?
|
12
yyrj 2018-01-30 22:04:03 +08:00 via iPhone
5 万可以试试
|
13
hackpro 2018-01-30 22:11:17 +08:00 via iPhone
有无 PDF 样张提供 是否需要处理页眉页脚脚注页码信息,可以尝试下
|