V2EX › itwardhalfacree 的所有回复

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

2024 年 3 月 8 日

回复了 ttgo 创建的主题 › OpenAI › chatgpt 到底能不能读 pdf 的内容？

我最近有同样的问题，使用 GPT4 读论文时，发现它接收了 PDF 之后，经常不根据文档内容回答，而是使用自己的通识回答问题，导致很多时候答非所问。在 OpenAI 的论坛上搜索了一圈，发现很多人有同样的问题。

总结来说，原因有几点。首先是隐私政策：如果你问 GPT4 的 browse file technical restrictions 时，它会告诉你它不能直接读文档，文档会被矢量化并存入数据库，并且 GPT 所有读文档操作都是通过`myfiles_browser`这种接口来控制，大大限制了它浏览大段文字以及结合前后文回答问题的能力。

其次是 PDF 文件解析问题。根据 OpenAI 论坛上的说法，OpenAI 疑似将 PDF 文件当成 txt 文件进行内容解析了，所以很多 PDF 的转义字符也被存在了 memory 里干扰了文件浏览。帖子里有人提到将 PDF 内容解析为 txt 或 markdown 能显著提高回答精准度，我尝试了确实如此，但依然受限于前面提到的隐私政策，无法结合前后文大段内容进行回答。

我现在使用国产 LLM 来读文档，经过测试，智谱清言，讯飞星火和通义千问在 PDF 问答方面特别好，至少是能够真的结合文档中的真实内容回答，估计是直接将解析的文档内容作为输入 tokens 的一部分了。其他第三方 LLM + langchain 网站也用了不少，但实际体验感都不太行。

其中，个人主观感觉文档问答能力千问 > 清言 > 星火。文心一言不知道怎么回事，也无法直接阅读文档的具体内容，只能回答一个模糊的大致情况。

以上内容是我琢磨出来，如果谁还有好的方法，麻烦踢我一脚（拜托了，LLM 读文献真的很有帮助）

2024 年 1 月 1 日

回复了 lijianmin321 创建的主题 › 分享创造 › V 站老哥太热情了， Airy 永久会员加送 9000，凑到 1 万

我也要！支持一下！😊

2023 年 12 月 9 日

回复了 yaott2020 创建的主题 › Linux › 你倾向于哪个 Linux 桌面发行版？

@EliStone #158 求问这个微信是怎么弄的

2023 年 9 月 3 日

回复了 7897894 创建的主题 › 程序员 › 我真的要崩溃了，各位大佬求推荐 Chrome 上的 Tab-Session-Manager 同款/同类型插件！强需求

tablerone 很好用，既美观又符合你提出的要求，我用着也没崩溃过，可惜没有 Workona 那样的多设备同步
https://chrome.google.com/webstore/detail/tablerone-tab-manager/andpjllgocabfacjlelkfpdemfklpfpo