如何评估一个 prompt 的效果？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 57 天前的主题，其中的信息可能已经有所发展或是发生改变。

在开发 AI 应用时，prompt 的变化带来的效果天差地别，但是在业务中又往往需要更改

但是修改后的 prompt 和原来的到底哪个效果更好，结果好像不得而知，你们是如何来评估 prompt 的效果的，就大致随意测试一下还是有一套完整的流程进行评估

3 条回复 • 2026-01-22 12:12:28 +08:00

yrom

1 月 22 日

1. 人，显而易见，太费人了。比如各种大模型比赛 arena ，由人来评价
2. LLM ，是的又当运动员，又当裁判。LLM-as-a-Judge 关键字，一搜一大把

cxh116

1 月 22 日

claude code 的话，用 plan 模式，更复杂的用 speckit 。

renmu123

1 月 22 日

我还是乖乖去写评估脚本吧