V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
NoobNoob030
1D
V2EX  ›  程序员

探讨 Harness Engineering

  •  
  •   NoobNoob030 · 18 小时 37 分钟前 · 2930 次点击

    最近被这个概念轰炸了,简中互联网上全是令人费解的吹嘘概念,没有一个实战案例,我今早特意去看了一下Anthropic 的实践文章openai 的实践文章

    A 的三 Agent ( Planner 、Generator 、Evaluator )思路能解决从 0 开始纯 AI 写项目的很多痛点,比如边界模糊、上下文焦虑、自我评估偏差等等。总之就是思路清晰,效果牛逼。

    而 openai 的逻辑大致是 1.把项目文档都放入 docs ,用 AGENTS.md 渐进式披露 2.强制代码架构和风格 3.通过各种姿势让 codex 能读浏览器前后端日志然后自己修 bug 4.加了一个垃圾回收的步骤

    按照我一个菜鸟程序员的直觉,A 的思路我看懂了,openai 的思路不明觉厉,我看完了文章想去尝试 A 的思路,但是我搜了一圈没找到类似的开源 repo ,插件,或者 skill ,有没有大佬锐评一下,或是已有实践给个仓库观摩看看

    第 1 条附言  ·  14 小时 8 分钟前
    我不是想造 harness ,我想用现成的 harness 框架,让 AI 从 0 写一个项目,我参与决策,不写代码,编码过程 Agent 高度自驱,我想找个 Anthropic 的三角色的 harness 框架,但是苦于找不到
    30 条回复    2026-04-01 00:25:16 +08:00
    akechiz
        1
    akechiz  
       16 小时 39 分钟前
    一直看到这个概念,但是实际上要怎么做,没看到,也没思路
    dsd2077
        2
    dsd2077  
    PRO
       15 小时 59 分钟前 via Android
    我个人觉得这东西本身就该由 cc 、codex 、cursor 等工具去思考。把这个概念抛给用户,并没多大意义。(如果炒概念也算的话)
    jaysonmac
        3
    jaysonmac  
       15 小时 55 分钟前
    Anthropic 的方案类似 code <--> review 迭代开发,不断优化
    OpenAI 的方案类似把巨大的 Project 拆解成多个 Sprint 敏捷开发,让 Agent 不会因为项目太大文档太多找不着北

    (手动狗头)
    catazshadow
        4
    catazshadow  
       15 小时 44 分钟前 via Android
    《随机数发生器使用指南》
    bytesfold
        5
    bytesfold  
       15 小时 38 分钟前 via iPhone
    我好像已经实践了,效果很好;
    可以先写个基础的版本,让它设计、编码、测试与迭代。
    类似于 OpenAI 的渐进式披露。

    我也不确定对不对
    zhangli2946
        6
    zhangli2946  
       15 小时 14 分钟前
    vibe 跟 harness 的差别我觉得主要在人的位置.

    harness 中人几乎可以不参与开发过程.
    vibe 中人几乎可以不离开开发过程.
    v2er119
        7
    v2er119  
       15 小时 8 分钟前
    就是开发过程工程化的方法论,只能算是过度概念吧。
    Yasuke
        8
    Yasuke  
       14 小时 49 分钟前
    gsd 、openspec 、speckit
    infoscope
        9
    infoscope  
       14 小时 30 分钟前 via iPhone
    搞各种花活,让 token 燃烧起来
    shineonme
        10
    shineonme  
       14 小时 27 分钟前   ❤️ 4
    不清楚你想要尝试的是构建一个 Harness 还是更好的驾驭 Harness ,
    这里有一个从 0 到 1 构建一个类似于 Claude Code 的项目,很推荐这个作为入门,
    12 小节内容,阶梯进展,简单清晰,还附带有一个交互式 Web 平台和每节练习代码,很用心了,
    https://github.com/shareAI-lab/learn-claude-code
    clemente
        11
    clemente  
       14 小时 24 分钟前
    其实就是 环境能够模拟仿真真实的生产环境

    让 ai 自己去 loop 迭代
    Kirbyyang951
        12
    Kirbyyang951  
       14 小时 15 分钟前
    Harness 不是开发 Agent 工具要考虑的吗,比如 claude code 本身开发这个 Mcp ,skills ,就是一种 harness 思路,为了提高 Agent 的跑分或者准确率,用 AI 工具开发普通项目怎么 Harness ,这个没理解。
    NoobNoob030
        13
    NoobNoob030  
    OP
       14 小时 13 分钟前
    我想按照 Anthropic 的实践方式,从 0 让 AI 自驱写一个项目,找到 https://github.com/code-yeongyu/oh-my-openagent/tree/devhttps://github.com/snarktank/ralph ,这俩项目都是有各自自驱实现任务的思路,但是跟文章中三角色的思路有偏差
    beimenjun
        14
    beimenjun  
    PRO
       14 小时 2 分钟前
    要说 Harness Engineering ,首先要说另外几个概念,分别是 Prompt Engineering 和 Context Engineering 。其实并不是一个全新的概念。但是 Prompt -> Context -> Harness 这一路过来,其实是很难分出一个准确的分界,因为模型的能力和围绕模型的框架建构,是在日夜不停的迭代进化的。

    新模型配老框架叫做吕布骑狗,老模型放在新框架大概率也提升不了啥。

    Harness Engineering 重点从以前的让模型更好的输出内容,转向如何使其在任务运行层面更好的完成任务:怎么拆任务,怎么验证,怎么控制上下文,怎么给 LLM 提供好的环境,全部都是需要根据实际模型能力来解决的问题。

    上面说的这些概念,其实之前全部都有,只是现在模型能力提升,要进一步成体系的重视了。
    Lin0936
        15
    Lin0936  
       13 小时 56 分钟前   ❤️ 1
    hxzhouh1
        16
    hxzhouh1  
       13 小时 50 分钟前   ❤️ 1
    matafu
        17
    matafu  
       13 小时 50 分钟前
    看上去 GPT 在 Agent.MD 里边做的事情跟 Cloude Code 在 Memory 里边做的事情差不多。
    lovedeepl
        18
    lovedeepl  
       13 小时 45 分钟前
    让 AI 自己管理 AI
    Lemonadeccc
        19
    Lemonadeccc  
       12 小时 38 分钟前
    我也看了 harness ,也不是很明白。
    但是后来实践之后。想把团队规范、代码风格之类的写在项目文档里,然后某一个更改之后形成 summary 放在文档里面,包括选型、潜在边界情况、分支以及简单的 summary 等等。维护起来。编码的时候遵循 plan -> execute -> 多轮交叉 review -> 优化 等等。也不知道自己探索的这部分能不能叫 harness
    Alex6
        20
    Alex6  
       12 小时 1 分钟前
    现实中团队的各种角色通过敏捷迭代来管理、把控、实现项目。那么把 AI 大模型想象成人,但是现在缺少一个工作方法让这些 AI 合作完成项目,我想这个方法就是叫 harness 吧。是一种面向 AI 的工程实践。
    kenshinhu
        21
    kenshinhu  
       11 小时 40 分钟前
    @bytesfold 对比这前的 spec-kit 之类,有什麼差异點?
    meeop
        22
    meeop  
       11 小时 29 分钟前
    你要是重度使用 ai 开发的话,构建自己的 harness 是个自然而然的事

    harness 其实就是构建在 agent 之上,应用业务逻辑之下的一层。你直接让 agent 开发,肯定会遇到诸如此类的问题:
    1 你原始 prompt 没说清楚(包括但不限于,代码规范,技术栈,方案路线,开发流程,质检策略)
    2 上下文丢失或者人工补充上下文 (你需要每轮都提示 ai ,请阅读 xx ,请按照如下方法做,请如何检索)
    3 无法长时间运行或者无法完成复杂高标准任务(因为缺少规划,执行,审核结果,反馈迭代循环)

    这些问题的解决方法就是 harness ,比如高速 agent 遵守哪些文档,开发流程和项目架构,要如何测试和质检,搭建测试和事实观测工具等等
    meeop
        23
    meeop  
       11 小时 26 分钟前
    其实也没有发明任何新的东西,现实是怎么开发的,agent 就应该怎么开发,harness 是补充 prompt 之外的这些开发上下文,协作机制
    maichael
        24
    maichael  
       10 小时 32 分钟前
    其实就是给 Agent 的「开发流程管理」,可以叫「赛博开发流程管理」
    CziL
        25
    CziL  
       9 小时 12 分钟前
    如果你现在在用 cc ,就已经在用 Harness 了,它已经内置了该功能,特别是在 plan mode 模式下
    chairuosen
        26
    chairuosen  
       8 小时 59 分钟前
    我的理解是,对 AI 的约束从 prompt 的固定提示词约束,到 context 的动态提示词约束,到 harness 的全生命周期约束。比如我最近搞自己中转站,发现 claudecode 发的请求,大部分工具调用的结果,比如读文件,还会附带一个<system-reminder>,里面是对读文件的技巧以及下一步操作的提示,相当于用工程的方式去在执行层面每一步进一步对 AI 有个约束和引导
    xiaozhaoz
        27
    xiaozhaoz  
       8 小时 51 分钟前
    感觉是 ai 自己在造各种垃圾概念。

    superpowers 和 gstack 不也在做类似的事情?
    bytesfold
        28
    bytesfold  
       6 小时 16 分钟前
    @kenshinhu spec-kit 只是对齐,harness 是创建环境让 AI 去做去实践,最终验收
    kenshinhu
        29
    kenshinhu  
       4 小时 15 分钟前
    @bytesfold 关于 harness 还有一个地方请教一下,当成品出来后会有完善的边界资料让 AI 去迭代吗?针对新的需求内容是以 spec/ rpd 方式加入还是直接 vibe ?
    bytesfold
        30
    bytesfold  
       4 小时 0 分钟前 via iPhone
    @kenshinhu harness 提供上下文:需求背景,必备的内容,边界约束;
    提尽量明确的需求,AI 决定怎么做,走不走 spec ,更新那些文档,交付的内容,验收的规范。

    说这么多人要啥就给 AI 啥,AI 交付的不对就问原因反哺;总之 AI 做不好就是 harness 不够,是要循环迭代起来。
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   930 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 20:25 · PVG 04:25 · LAX 13:25 · JFK 16:25
    ♥ Do have faith in what you're doing.