个人比较困惑的点
关于 openai 流请求中断后,客户端就不再接收新的 token ,但背后 AI 服务是结束了推理,还是继续推理,直到 done 呢?
chatgpt 进行测试的话,我发现点击停止生成,然后继续问,AI 反应很快,是可以重新推理的,所以像是直接结束了。如果不是立即结束,大量 AI 请求发出来,然后终止,再继续发新的,叠加的话,资源开销也太大了。
最近接国内某 AI 服务,沟通说是即使客户端停止了流请求,AI 推理还是继续,也就是消耗还是全量的 token 。所以好奇这是通病还是就我接入这 AI 服务的问题
1
alanhe421 OP 同步下结论,来自官方社区的咨询。
openai 流请求中断后,背后的 AI 服务也会在几 s 内立即结束。 https://community.openai.com/t/chatgpts-stop-generating-function-how-to-implement/235121/11 |