1
cortexm3 13h 51m ago
给权限,比如 yolo 模式,加上支持自动任务的框架,比如 ralph 。
其实你让 AI 给你写个自动运行的工作流也一样。 |
2
0x5c0f 13h 20m ago
这个我之前也想了一下,应该是要加入记忆插件吧,或者类似记忆的能力, 比如要求先写计划书、每次功能编写都进行 git 归档,然后隔一段时间就让他自己 git log 看看完成任务,同步标记计划书,这个很多 ai 编辑器工具应该都具备,比如 kiro 的 plan 模式
|
3
tutulyy 13h 14m ago 插个眼,
中间状态飘了,最后产出根本没法收敛回来。 |
4
XuDongJianSama 13h 5m ago
三个方案
1:claude.md 或 memory 文件里写任务,直接让他干,等自动压缩能续上 2:主 agent 只调度,串行启动子 agent 干活 3:脚本循环启动 我用的 glm 搭配 cc ,1 很不稳,上下文大了容易坏。2 能干挺久挺稳。3 能无限干,实测好几天,还加了多角色切换 |
5
mengyaoren 13h 5m ago
oh-my-claudecode 的 ralph 可以执行长任务
|
6
june4 13h 1m ago |
7
andlp 12h 59m ago 昨晚执行了一个 2h30m 左右的任务,就是一个 flutter 项目 clone 下来之后,让他成功运行并 build apk 和 ipa 出来,提示词就说一直做出 apk 为止,中途不要询问,不要停止,不要等待
|
8
benjaminliangcom 12h 51m ago
前两天试用 gsd-pi ,前期对好需求就可以进入 auto mode 了
|
9
tanrenye 12h 45m ago 你只要减少代码洁癖就可以做到
|
10
alfa 12h 43m ago
插个眼,现在跑了 16 分钟,看看最后跑完需要多久。
|
11
byteLoading 12h 26m ago
https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents
claude 之前有过一篇 blog 讲这个问题,大概的思路是: 1. 拆分任务 2. 搞个记忆机制,维护任务状态 3. 结合各种钩子,更新任务状态 + 选择下一个任务 可以使用这个思路去构建自己的工作流,不过任务拆分的粒度不够 + 模型不够强的话跑偏了的话,可能就是会浪费你大量的 token 又达不到预期的效果,所以就需要把任务拆分的足够小 + 搭配充分的验证任务完成的机制,这一步对人的经验要求还是比较高的。 |
12
shinelamla 12h 15m ago
插个眼,感觉这种也是有边界的,是不是多数适合从 0-1 做一个新项目?
|
13
whatcall 12h 14m ago
试试 devin.ai
注册送 20~50USD , 我随便拉个个开源项目,制定好任务步骤目标,让它跑个重构升级,它能一直跑很久,送的 50USD 很快就用完了。 |
14
wat4me 12h 13m ago
|
15
momocraft 12h 11m ago 为什么要用时间当指标呢?好像时间短了别人会觉得你无能一样
让 AI 做事和让人做事,评价应该是差不多的 把一个人捆在那几小时很简单,让他可持续地做对你有用的事才叫 管理 |
16
xingchenxf 12h 10m ago 不要听别人胡扯,能做到的方式就两种
1. 模型能力强, 我对比过 gpt5.5 啥都不做,只要告诉他一直做完,就真的一直做。而 gpt5.4 、sonnet4.6 就不行。 2. 暴力流:比如 loop / hook / while(true){claude -p "xxx"} 其他的基于 Prompt 的都是不靠谱的。 也就是说 claude.md 、skill 这些,都没用。 |
17
keshawnvan 12h 4m ago
1.提前写好比较完善的方案,并且有对应 skill 去约束按照方案执行,比如使用 superpowers
2.开启自动审查或者比较宽松的权限策略 3.使用比较强的推理模型 我测下来最多一次跑了七个小时,生成的代码还是比较可用的。 |
18
andforce OP |
19
litchinn 11h 51m ago
试试 gstack + get-shit-down
|
20
IndexOutOfBounds 11h 47m ago via Android
@tanrenye 很真实,喜欢微操就不适合长时间跑
|
21
momocraft 11h 43m ago
|
22
andforce OP @momocraft #21 我看你是没有实际碰到具体使用场景,从而很难理解别人说的“长时间有用”。
我给你举个例子吧,我现在的场景是: 我白天在公司跟 AI 结对编程,这就不说了,就是提到的“人和 agent 一起在充分知识下做计划,计划足够具体且可行”,我跟 AI 确实在一起好几个小时。 下班后我接了 2 个网站开发的活儿,有时候我还会自己开发开源项目,这些项目共同的特点就是:没有严格的苛刻的需求验收,大体上实现功能就行了。 我想要在睡觉前,让 AI 把我这些活儿交给 AI 按照我需求一条一条干,我早上起来看一下。 现在你明白使用场景了吗? “有用”怎么定义?在我这能给我完成活儿,挣到钱就好了,这就是对我有用的 ![]() |
23
ntdll 11h 15m ago
其实拆了,也很难维持。我经常遇到 Claude 说
我现在已经完成 xxxx ,下一步是 xxxx ,如果你愿意的话,我可以 xxxxx 然后就停那了,明明它啥都知道,就是要你回个“继续” 我也试过提示词里告诉他,直到完成之前,不要问我,也不用告诉我任何中间状态,但依旧出现: 我已经完成了 xxxx ,下一步要做 xxxx ,用户的原话是:xxxx (就是我那一句让他不要停的提示词) 然后停在那了,等我回复 |
25
kulove 11h 2m ago via Android
感觉是卖课做自媒体才这么搞 这么长时间无法控制结果和质量的 我这边最多让它完成一个小模块 然后大概半小时左右
|
26
beimenjun PRO 10 个小时的都有,cc 没有网络重试,就这么卡死了 10 个小时。
其实我觉得不要盯着时间,而是盯着产出…… |
27
maichael 11h 1m ago 如果你「思考清楚了」整个计划,那么「几小时」的长编程几乎都是代码生成,当然正常是不用几个小时的。
但是你是不可能提前「思考清楚了」,你正常只能想清楚大概,而且 LLM 生成代码也可能不出问题,不需要修正,所以包括「代码生成」、「 Cross-Agent Review 」、「路线修正」等等加起来耗几个小时是很正常的,当然,前提是你的机制(计划、loop 等)完善,才能一直跑不需要你介入。 |
28
mengdu 10h 56m ago
https://github.com/appautomaton/agent-designer 先拆分出 issue 的 csv ,然后 https://github.com/leo-lilinxiao/codex-autoresearch,让完成 issue 。
|
29
dabinDev 10h 55m ago
subagent 把
任务规划 agent 任务开发 agent 任务测试 agent |
30
HomeZane 10h 54m ago
用了上几个 skill 就行,比如 superpower
不过让他写一个简单的 skill 就用了 4 个小时,让我对这个模式有点祛魅了 还是要关注产出,关注产出,关注产出 |
31
anyscript 10h 43m ago
github 上有一些开源的牛马框架 比如 https://github.com/kunchenguid/gnhf
|
32
jackOff 10h 32m ago
1-讨论计划
2-拆分计划和自验收标准 3-给一台干净电脑的全部权限让它操作,允许他自我编译代码 4-网络要极其好,网络波动或者断网,它就彻底断片了 |
33
Liftman 9h 29m ago
hook
|
34
adgfr32 9h 5m ago via Android
死循环
|
35
94 8h 56m ago
长时间跑容易丢失专注力然后跑偏。所以一般都是拆任务,然后按照任务清单去跑,并且产生检查点方便回溯。及时人工介入纠正错误。
要不然跑一两个小时发现牛头不对马嘴,花了时间又花钱了,拿不到结果不是炸了么。 我都是在前期多轮对话写好 Plan (会用多个模型去挑刺),再启一个新的终端让他自己跑一整个开发计划。加上自测和小步提交,也完全不需要非常长的时间。 如果只是小需求或者项目起步,需求清晰任务明确,时间长一点几十分钟就搞定了。 但其实很多时候问题出在 Plan 不够细致,Agent 跑到一半或者整个任务跑完了才反应过来漏了一部分的细节…… 所以我觉得端板是在我这边。 |
36
94 8h 52m ago
时间长一点几十分钟就搞定了 => 时间长一点几十分也就搞定了。
所以我觉得端板是在我这边 => 所以我觉得短板是在我这边。 #35 |
37
freak118 8h 44m ago
@XuDongJianSama 方式 2 遇到同时修改同一个文件会有问题吗
|
38
forbreak 7h 18m ago
我试过先写计划落地到 md 文件,然后告诉它按计划执行,直到计划完成在停止。 是可以一直做的,不加这句直到做完就不会一直跑。
|
39
AOK123 6h 17m ago
session limit 顶不住啊,5 小时窗口 1 小时烧完
|
40
teaguexiao 4h 23m ago
关键是任务拆解尽量细、每个子任务结果可验证,这样 context 不会被垃圾占满。我用 CC 时一般先让它出一份 plan.md 确认后再跑,单次任务不要跨得太大。
|
41
cskeleton 4h 20m ago
superpowers + 给权限。以及合适的任务。
我之前让 opus 帮我写个整理密码的工具,结果它遇到坑了,去翻了 firefox 和 keepass 的源码,然后弄出来的解决办法,搞了好几个小时。这不连续工作就有了。 |
42
Gilfoyle26 3h 17m ago
完全的黑箱,所有的权限都交出去,然后最后你能看到成果就行
|