• 请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 254 days ago, the information mentioned may be changed or developed.

背景

想基于一些本专业相关电子书构建知识库，并在大模型辅助下撰写一份近百页篇幅的英文材料，输入资料无保密要求，个人无任何 LM 基础，且编程底子弱、没空折腾
通过 V2EX 了解到 Dify 等低代码平台似乎满足需求，如
https://www.v2ex.com/t/1111695

现状

看了小一周的视频教程/Reddit 论坛/官方文档，初步摸索了知识库傻瓜式搭建流程和模型选择
目前，基于一份 6000 字的英文资料 + 父子分块 + Qwen3 Embeddind & Reranker 4B ，测得召回 score 还可以，试了下问答似乎没啥大问题，但还没有大量喂资料和优化调参（如对比 Jina/Cohere ）

问题

上面这套能否让 LM 一口气写很长的篇幅?个人感觉即使 Rerank 模型 TopK 调到最大 10 ，命中的片段数量也不足以支撑长篇幅写作，最后还得靠大模型自己补？
接问题 1 的需求，父子分块下，父块按段落分（最大分段 1024 ）似乎 ok ，子块按逐句截断好（~200 最大分段）还是多句截断好（~500 最大分段）？我试了下前者召回 score 更高，但片段过于精确/短似乎不是好事吧？
最近又调研到①ChatGPT 和②Claude 的 Project 可以直接充当知识库、③Claude+morphik 等 MCP 组合，我看 Reddit 有人分享说 Claude 好点。请问有使用经验的大佬：这 2 个平台和上述 Dify 部署哪个更符合要求？

水平低，问题傻，请大佬们不吝赐教！感谢！

dify

ChatGPT

Claude

2 replies • 2025-09-06 15:41:26 +08:00