对了，针对 4 楼的问题，我讲下我的理解，因为大语言模型回答的时候，是通过激活跟上下文相关的权重网络进行理解和回应的，并不是检索数据的过程，假设把 context 只针对本次 session 的参数，可能会有另一个问题，就是 context 如果是错误的，根据错误的权重网络，那么就会推导出错误的结果。

Dec 14, 2023

Replied to a topic by drymonfidelia › 程序员 › 为什么大模型能记住 dataset 里几万亿字的内容，却记不住和用户聊天时两三万字的 context？

训练数据训练的过程其实不是记忆全部数据的过程，而是学习语言规律，用法，结构的过程，训练过程中会调整参数，在训练结束后，这些参数就是大语言模型的 “长期记忆”，而聊天的上下文，会传给大语言模型进行推理，找到权重相关的内容，然后组织出答案。上下文越多，关联的东西就越多，大语言模型需要进行更多的文本分析和激活更多的参数权重，所以就约束了参数的上下文长度。
上面那个是我跟 chagpt-4 一起交流出来的，然后梳理出来的我的理解，有错的欢迎交流指正

Jul 28, 2023

Replied to a topic by cloud176 › 职场话题 › 专注：如何提高专注力和注意力的简要指南

如果原文是英文的话，蹲个原文

Apr 22, 2023

Replied to a topic by iorilu › 程序员 › 大家现在用什么字体可以分享下啊，想找个兼容中文的等宽字体

同样用 2 楼那个字体，中文叫霞鹜文体

Apr 22, 2023

Replied to a topic by sjmcefc2 › 程序员 › 想请教 windows 上如何阅读 epub？

@iloveoovx readwise

Mar 26, 2023

Replied to a topic by djyde › 程序员 › 28 岁，我还想生猛下去

@zhaorunze 要不你分享下你的经历？

» More replies by Taikyo