V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
renmu123
V2EX  ›  问与答

如何评估一个 prompt 的效果?

  •  
  •   renmu123 · 3 天前 · 914 次点击

    在开发 AI 应用时,prompt 的变化带来的效果天差地别,但是在业务中又往往需要更改

    但是修改后的 prompt 和原来的到底哪个效果更好,结果好像不得而知,你们是如何来评估 prompt 的效果的,就大致随意测试一下还是有一套完整的流程进行评估

    3 条回复    2026-01-22 12:12:28 +08:00
    yrom
        1
    yrom  
       3 天前
    1. 人,显而易见,太费人了。比如各种大模型比赛 arena ,由人来评价
    2. LLM ,是的又当运动员,又当裁判。LLM-as-a-Judge 关键字,一搜一大把
    cxh116
        2
    cxh116  
       3 天前
    claude code 的话,用 plan 模式,更复杂的用 speckit 。
    renmu123
        3
    renmu123  
    OP
       3 天前
    我还是乖乖去写评估脚本吧
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2603 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 19ms · UTC 11:26 · PVG 19:26 · LAX 03:26 · JFK 06:26
    ♥ Do have faith in what you're doing.