问了大模型,目前用 pdfinfo/pdffonts/pdfimages 结合来,准确度不理想。
1
tool2dx 2024-12-10 13:58:30 +08:00
纯扫描版就是 jpg 内嵌大图,没有具体文字可以选中,用 pdf 文字提取工具,很容易识别的吧。
|
2
shintendo 2024-12-10 14:00:37 +08:00
文件体积除以页数
|
4
paopjian 2024-12-10 14:31:04 +08:00
直接用脚本尝试提取文字不可以吗?多于几个字就算是文字版
|
5
mclxly OP |
7
sketcherly 2024-12-10 16:39:48 +08:00
直接解析 pdf 统计字数呢
|
8
CLMan 2024-12-10 17:46:48 +08:00
就算是用 文件大小/页 ,准确率应该也差不到哪里去。
|
9
cowcomic 2024-12-10 17:55:33 +08:00
如果是大面上的区分的话,大小除以页数应该就是比较迅速的方式了
除非要求比较精确,百分之多少是图片之类的 |
10
mclxly OP |
11
xiaomageit 2024-12-10 23:10:21 +08:00
降精
|
12
israinbow 2024-12-11 13:56:53 +08:00 via Android
文字版 pdf 转成 html 看起来会很有逻辑.
|