1
gogorush 2023-02-16 08:28:25 +08:00
大概率 chatgpt 会把自己的问题和答案全存着的 用户协议里面就有
|
3
jamosLi 2023-02-16 09:22:52 +08:00
首先啊,我是说首先啊。bing 本身就是一个标签系统,你胡子眉毛一把抓的爬虫数据,本身就是垃圾样本。
|
4
satoru OP @jstony 有一个 temperature 参数可以控制有多大概率随机选择概率不是最高的下一个“词”,所以没有缓存的话多次运行很可能看到不一样的结果。
|
5
ersic 2023-02-16 09:32:48 +08:00
chatgpt 可以基于一个模型训练属于自己模型,这个新模型应该是私有的。
|
6
h272377502 2023-02-16 10:31:18 +08:00 1
到了 chatgpt 这种级别的数量级,肯定不能完全避免,openai 自己有训练模型区分对话是否有 ai 生成,也只能分辨很长的那类的句子,短的无法区分出差异。训练 chatgpt 的第一部是训练 gpt ,简单的讲,gpt 就是学习通顺的上下句,那些模型产的数据,只要上下文通顺,影响不大。chatgpt 的下一步,通过 rlhf 方式去训练模型的(这部分需要人类去标注回答的好坏),可以理解成,有个模型在给 gpt 生成的结果打分,并指导 gpt 生成符合人类倾向的回答,如果那些自产的数据质量不高的话,可以在这阶段消除。
|
7
otakustay 2023-02-16 11:54:59 +08:00
GPT 的优势就是能自产自销进化,你把这个干掉还玩啥 GPT
|