哪个 rag 系统比较靠谱？

This topic created in 801 days ago, the information mentioned may be changed or developed.

之前在 DIFY 上测试了体检报告的效果，基本是个笑话。

于是降低要求
找了份科幻小说 txt 文件：猎户座防线

上传到 DIFY 的知识库,配置都选默认
模型有：chatgpt3.5 、月之暗面 v1 、glm4 、文心一言刚免费的 speed 。

效果只举两个例子
小说中反复提到“大副迪尔”，还有这么一段：

    “我来自丹那芭⑤”她说，“你知道那儿吗？”
    “不。”
    “它距离地球 1600 光年……

问“丹那芭距离地球多少光年？”，基本都能答对，这点我有点小惊讶。
问“迪尔是什么职务”，居然都回答不知道或者说文中没提。

不甘心，打开 kimi ，上传文件，问“迪尔是什么职务”，kimi 马上答上了

Supplement 1 · May 23, 2024

dify 上换上 https://github.com/netease-youdao/BCEmbedding 的 embedding 和 rerank 模型，效果杠杠的

Supplement 2 · Jun 20, 2024

已经投奔 llamaindex

Supplement 3 · Oct 27, 2024

已经全自己撸了

kimi

dify

效果

14 replies • 2024-10-27 00:04:40 +08:00

Solix

May 22, 2024 via iPhone

fastgpt 效果好

nnqijiu

May 22, 2024

WPS AI 的 rag 不错，不过好像收费了

xenoblade

May 22, 2024

我认为这个例子其实应该归类为“RAG VS 长上下文”，恰恰说明了长上下文在有限信息的 QA 中完胜 RAG 。
目前 langchain 系的通用 RAG 系统上限就在那里了，要想达到更高的精确度需要对不同领域进行微调，例如例子中读书场景的 prompt 优化、chunk 分割的人工干预。

wencan

May 23, 2024

@xenoblade rag 也属于上下文
dify 上换上 https://github.com/netease-youdao/BCEmbedding 的 embedding 和 rerank 模型，效果杠杠的

butterls

May 27, 2024 via Android

主要是只有切片会丢失上下文，RAG 里要存的实际是类似知识图谱的上下文数据，比如你要做代码仓分析，rag 就能查到函数块，上下文引用，宏定义啥的都米有，那分析结果就跟个二傻子一样

Reminders

Jun 19, 2024

@wencan #4 dify 上配置 bce 的 embedding 和 rerank ，这两个模型需要自己部署吧？

wencan

Jun 20, 2024

@codingbody 是的。后者可以用 https://github.com/xorbitsai/inference

fakecoder

Jun 25, 2024

op 用 llamaindex 感觉咋样

wencan

Jun 25, 2024

@fakecoder 1. 代码质量很差 2. 还没到 1.0

fakecoder

Jun 25, 2024

@wencan #9 后来为啥不用 dify 了，现在还在用 llamaindex 吗？

wencan

Jun 25, 2024

@fakecoder dify 太弱了，适合给不会写代码的人做玩具
llamaindex 虽然问题多多，但相比之下，还是能解决问题

fakecoder

Jun 25, 2024

@wencan #11 好的，感谢解答

ccxuy

Oct 26, 2024

@wencan 有没有参考材料？我们也想做个内部知识库，简单搞了下 dify 发现召回率太差了

wencan

Oct 27, 2024

@ccxuy 建议先照着 llamaindex ，自己写着试试。如果还是不能满足需求，跟我一样，自己撸吧