几小时的编程长任务到底是怎么做到的？

andforce · 2026-04-28T00:30:25Z

经常在别的地方看到，AI 连续变成几小时。拿 cc 举例子，具体咋做到的呢

编程

任务

AI

45 replies • 2026-05-20 15:28:20 +08:00

1

cortexm3

Apr 28

给权限，比如 yolo 模式,加上支持自动任务的框架，比如 ralph 。
其实你让 AI 给你写个自动运行的工作流也一样。

2

0x5c0f

Apr 28

这个我之前也想了一下，应该是要加入记忆插件吧，或者类似记忆的能力，比如要求先写计划书、每次功能编写都进行 git 归档，然后隔一段时间就让他自己 git log 看看完成任务，同步标记计划书，这个很多 ai 编辑器工具应该都具备，比如 kiro 的 plan 模式

3

tutulyy

Apr 28

1

插个眼，
中间状态飘了，最后产出根本没法收敛回来。

4

XuDongJianSama

Apr 28

三个方案
1：claude.md 或 memory 文件里写任务，直接让他干，等自动压缩能续上
2：主 agent 只调度，串行启动子 agent 干活
3：脚本循环启动

我用的 glm 搭配 cc ，1 很不稳，上下文大了容易坏。2 能干挺久挺稳。3 能无限干，实测好几天，还加了多角色切换

5

mengyaoren

Apr 28

oh-my-claudecode 的 ralph 可以执行长任务

6

june4

Apr 28

1

https://learn.shareai.run/zh/

7

andlp

Apr 28

1

昨晚执行了一个 2h30m 左右的任务,就是一个 flutter 项目 clone 下来之后,让他成功运行并 build apk 和 ipa 出来,提示词就说一直做出 apk 为止,中途不要询问,不要停止,不要等待

8

benjaminliangcom

Apr 28

前两天试用 gsd-pi ，前期对好需求就可以进入 auto mode 了

9

tanrenye

Apr 28

5

你只要减少代码洁癖就可以做到

10

alfa

Apr 28

插个眼，现在跑了 16 分钟，看看最后跑完需要多久。

11

byteLoading

Apr 28

https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents

claude 之前有过一篇 blog 讲这个问题，大概的思路是：
1. 拆分任务
2. 搞个记忆机制，维护任务状态
3. 结合各种钩子，更新任务状态 + 选择下一个任务

可以使用这个思路去构建自己的工作流，不过任务拆分的粒度不够 + 模型不够强的话跑偏了的话，可能就是会浪费你大量的 token 又达不到预期的效果，所以就需要把任务拆分的足够小 + 搭配充分的验证任务完成的机制，这一步对人的经验要求还是比较高的。

12

shinelamla

Apr 28

插个眼，感觉这种也是有边界的，是不是多数适合从 0-1 做一个新项目？

13

whatcall

Apr 28

试试 devin.ai
注册送 20~50USD ，我随便拉个个开源项目，制定好任务步骤目标，让它跑个重构升级，它能一直跑很久，送的 50USD 很快就用完了。

14

wat4me

Apr 28

https://openai.com/zh-Hans-CN/index/harness-engineering/
https://www.anthropic.com/engineering/harness-design-long-running-apps
拆解出足够多的目标以及目标完成后的验证步骤如何推进

15

momocraft

Apr 28

1

为什么要用时间当指标呢？好像时间短了别人会觉得你无能一样

让 AI 做事和让人做事，评价应该是差不多的
把一个人捆在那几小时很简单，让他可持续地做对你有用的事才叫管理

16

xingchenxf

Apr 28

1

不要听别人胡扯，能做到的方式就两种
1. 模型能力强，我对比过 gpt5.5 啥都不做，只要告诉他一直做完，就真的一直做。而 gpt5.4 、sonnet4.6 就不行。
2. 暴力流：比如 loop / hook / while(true){claude -p "xxx"}
其他的基于 Prompt 的都是不靠谱的。也就是说 claude.md 、skill 这些，都没用。

17

keshawnvan

Apr 28

1.提前写好比较完善的方案，并且有对应 skill 去约束按照方案执行，比如使用 superpowers
2.开启自动审查或者比较宽松的权限策略
3.使用比较强的推理模型
我测下来最多一次跑了七个小时，生成的代码还是比较可用的。

18

andforce

OP

Apr 28

@momocraft #15 兄弟，你可以尝试这理解一下主题意思。

你只看到了“时间”，难道有人会单纯为了让 AI 长时间瞎跑吗？

那不是很明显个是想让 AI 长时间做最对自己有用的事么？

19

litchinn

Apr 28

试试 gstack + get-shit-down

20

IndexOutOfBounds

Apr 28 via Android

@tanrenye 很真实，喜欢微操就不适合长时间跑

21

momocraft

Apr 28

@andforce 你看你还是在把长时间当成目标。我的意思是有用应该是唯一的目标，如果要再多一个目标就是节省人类时间

我最成功节省自己时间的时候是这样：

agent 在沙盒里跑，权限不管
人和 agent 一起在充分知识下做计划，计划足够具体且可行
执行的时候不容易偏，比如各 CLAUDE.md 里有足够具体信息，代码质量不差，agent 可以简单地自己跑测试

22

andforce

OP

Apr 28

1

@momocraft #21 我看你是没有实际碰到具体使用场景，从而很难理解别人说的“长时间有用”。

我给你举个例子吧，我现在的场景是：
我白天在公司跟 AI 结对编程，这就不说了，就是提到的“人和 agent 一起在充分知识下做计划，计划足够具体且可行”，我跟 AI 确实在一起好几个小时。

下班后我接了 2 个网站开发的活儿，有时候我还会自己开发开源项目，这些项目共同的特点就是：没有严格的苛刻的需求验收，大体上实现功能就行了。

我想要在睡觉前，让 AI 把我这些活儿交给 AI 按照我需求一条一条干，我早上起来看一下。

现在你明白使用场景了吗？

“有用”怎么定义？在我这能给我完成活儿，挣到钱就好了，这就是对我有用的

23

ntdll

Apr 28

其实拆了，也很难维持。我经常遇到 Claude 说

我现在已经完成 xxxx ，下一步是 xxxx ，如果你愿意的话，我可以 xxxxx

然后就停那了，明明它啥都知道，就是要你回个“继续”

我也试过提示词里告诉他，直到完成之前，不要问我，也不用告诉我任何中间状态，但依旧出现：

我已经完成了 xxxx ，下一步要做 xxxx ，用户的原话是:xxxx （就是我那一句让他不要停的提示词）

然后停在那了，等我回复

24

nicaiwss

Apr 28 via iPhone

@ntdll 羞辱他不理解指令，告诉他 codex 要审核他的代码发现他居然没写完

25

kulove

Apr 28 via Android

感觉是卖课做自媒体才这么搞这么长时间无法控制结果和质量的我这边最多让它完成一个小模块然后大概半小时左右

26

beimenjun

PRO

Apr 28

10 个小时的都有，cc 没有网络重试，就这么卡死了 10 个小时。

其实我觉得不要盯着时间，而是盯着产出……

27

maichael

Apr 28

1

如果你「思考清楚了」整个计划，那么「几小时」的长编程几乎都是代码生成，当然正常是不用几个小时的。
但是你是不可能提前「思考清楚了」，你正常只能想清楚大概，而且 LLM 生成代码也可能不出问题，不需要修正，所以包括「代码生成」、「 Cross-Agent Review 」、「路线修正」等等加起来耗几个小时是很正常的，当然，前提是你的机制（计划、loop 等）完善，才能一直跑不需要你介入。

28

mengdu

Apr 28

https://github.com/appautomaton/agent-designer 先拆分出 issue 的 csv ，然后 https://github.com/leo-lilinxiao/codex-autoresearch,让完成 issue 。

29

dabinDev

Apr 28

subagent 把
任务规划 agent
任务开发 agent
任务测试 agent

30

HomeZane

Apr 28

用了上几个 skill 就行，比如 superpower
不过让他写一个简单的 skill 就用了 4 个小时，让我对这个模式有点祛魅了
还是要关注产出，关注产出，关注产出

31

anyscript

Apr 28

github 上有一些开源的牛马框架比如 https://github.com/kunchenguid/gnhf

32

jackOff

Apr 28

1-讨论计划
2-拆分计划和自验收标准
3-给一台干净电脑的全部权限让它操作，允许他自我编译代码
4-网络要极其好，网络波动或者断网，它就彻底断片了

33

Liftman

Apr 28

hook

34

zh3256

Apr 28 via Android

死循环

35

94

Apr 28

长时间跑容易丢失专注力然后跑偏。所以一般都是拆任务，然后按照任务清单去跑，并且产生检查点方便回溯。及时人工介入纠正错误。
要不然跑一两个小时发现牛头不对马嘴，花了时间又花钱了，拿不到结果不是炸了么。

我都是在前期多轮对话写好 Plan （会用多个模型去挑刺），再启一个新的终端让他自己跑一整个开发计划。加上自测和小步提交，也完全不需要非常长的时间。
如果只是小需求或者项目起步，需求清晰任务明确，时间长一点几十分钟就搞定了。

但其实很多时候问题出在 Plan 不够细致，Agent 跑到一半或者整个任务跑完了才反应过来漏了一部分的细节…… 所以我觉得端板是在我这边。

36

94

Apr 28

时间长一点几十分钟就搞定了 => 时间长一点几十分也就搞定了。
所以我觉得端板是在我这边 => 所以我觉得短板是在我这边。
#35