在开发 AI 应用时,prompt 的变化带来的效果天差地别,但是在业务中又往往需要更改
但是修改后的 prompt 和原来的到底哪个效果更好,结果好像不得而知,你们是如何来评估 prompt 的效果的,就大致随意测试一下还是有一套完整的流程进行评估
1
yrom 3 天前
1. 人,显而易见,太费人了。比如各种大模型比赛 arena ,由人来评价
2. LLM ,是的又当运动员,又当裁判。LLM-as-a-Judge 关键字,一搜一大把 |
2
cxh116 3 天前
claude code 的话,用 plan 模式,更复杂的用 speckit 。
|
3
renmu123 OP 我还是乖乖去写评估脚本吧
|