@
shark000 显然没有,现在的大模型能力有限。这么解释吧:
当前大模型有上下文限制,而一本书显然超过这个限制,更别说知识库了。所以要让 AI 读书、读知识库,必须进行向量。但向量化后,AI 也做不到读你给的书,因为上下文仍然超过了他的上下文长度,所以 AI 只会在其中搜索跟你提问相关的段落,读一部分。
这会带来什么问题呢?向量本质就是“切”文本,把文本切成长短不一的部分,在向量空间展示他们间的关联程度。所以一定会丢信息,不管你切得多“碎”,都会丢信息。所以这东西配合 AI ,本质就是个高级模糊搜索,还因为丢信息,实质体验并没有那么好。
举个例子,你需要的信息刚好包含在 AI 允许的上下文长度中,把这段文本丢给 AI ,一般能问出你要的结果。可如果你把这段文本丢进知识库,向量化后,再问 AI ,AI 就不一定能给出正确的答案了。
这种程度的都做不到,那么一些更高级的就更不要想了,比如:
1. 我有一本书,相关人物的信息散见于各章节,我想让 AI 帮我整理该人物地设定。做不到,因为 Ai 本质只是在向量空间中找这个人物关联高的词,再读对应段落,做个大致总结。他不可能像人一样那么细致,更别说作者对同一个人物还有不同称呼,人能理解并予以总结,但 AI 不行。
2. 需要推理的时候。比如你建立几个人物页面,一个页面说 A 是 B 的儿子,另一个说 B 是 C 的儿子,都很长。现在你问 AI ,A 和 C 是什么关系? AI 未必能答得出来。因为 AI 的推理只限于他的上下文长度内,当需要推理的信息混杂在知识库中,他首先难以找到对应信息,再一个找到了也未必能推理得出来。
以上体验基于 Obsidian 的 SmartComposer 插件,用 OpenAI 的 text-embedding-3-smal 向量化我的知识库后,再用 DeepSeek-R1 和 gpt-4o-mini 提问得到的一些体验。用于提问的文本基本来自《猎魔人》的 wiki ,这已经相当规范的文本了,如果你的文本质量还不如这个,我估计使用体验想必难以保证。
我对 AI 的理解可能也有误,如果有专业人士可以指出,但想来现在的大模型可能真的只有这个水平了。
如果你确实有需求,可以用我的组合,至少能当个稍好的模糊搜索,多的就不能指望了。