深度 Vibe Coding 2 个月用了三百多亿 Token 一些统计数据和碎碎念

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

一个月前发了贴（ Codex 使用量分析）： https://v2ex.com/t/1213114

目前这个 Infra 项目也 public release 了， https://wdl.dev/

项目在一开始是 CC 为主的，当时还是 Opus 4.6 ，后来 GPT 5.5 来了，就主要由 Codex 主程了，最大的一个 session （也就是我所谓的 Main Coder ），目前累积的 input 已经有 10B （一百亿）了。

Codex 2026-04-13 to 2026-06-24 统计如下：

指标	数值
Total tokens	17,997,228,583
Input	17,852,969,037
Cached input	17,097,716,224
Output	37,707,353
Reasoning output	11,175,876
非缓存 Input	755,252,813
Net	792,960,166
缓存命中率	95.77%
调用次数	116,485
会话数	296
日均 Total	246,537,377.85

事实上从第二周开始 Codex 就开始接手了，Claude Code 主要是 Review （当然也有在 Codex 烧完，我又不想继续充钱时，它接手），但是即便是 Review ，Claude 也消耗了非常多的 Token ，以下是统计数据，Claude Code 从 5 月 4 日开始不再有一个月滚动存储，而是完整存储，所以项目虽然是 413 就开始最小 demo ，但是我最早本地统计只有 417 的，拼接一下是这样

按“2026-04-17 to 2026-05-03 用旧报表，2026-05-04 to 2026-06-24 用当前日志”的混合口径，Claude Code 统计如下：

指标	数值
范围	`2026-04-17 to 2026-06-24`
Total tokens	12,708,166,023
Input	4,820,408
写缓存	351,000,106
读缓存	12,317,263,840
Output	35,081,669
总输入	12,673,084,354
Net	390,902,183
缓存命中率	97.19%
调用次数	51,750
会话数	约 220-230

也就是 token 总消耗量大概在，三百多亿，粗算如果都走 API ，成本大概是 25K USD 左右，但是现在仅需 Codex 的多次 reset （当然也有我有时候充值点 Credit ，总数不多），再加上 200 刀的 ChatGPT 和 100 刀的 Claude Code （话说 100 刀 Fable 做 Code Review 根本做不下来，只能再补差 200 刀，结果 Fable 用了几天没了），就能搞定了，这样看订阅真是大善人？

最后大概发散几个体验吧，我属于古法 Vibe Coding 派的，skill 除了自己的一个 Refactor Guard 以外，其他一概不用，所以以下体验可能存在优化空间

Opus 的 1M 上下文，从体感上和 GPT 的 258K 没有太大区别，GPT 的 Compact 是真能记得住，Opus 你但凡 Compact 了一回来就像个傻子一样
大概也就是我古法 Vibe Coding ，所以体感上 Opus 4.7 和 4.8 是质量不怎么样，的确没有 5.5 好，因为我一个 Main Coder+4 个 Reviewer(2CC +2Codex)，所以需要模型能力势均力敌的，4.7 和 4.8 有时候就是找不到 P1 错误，不核心的大家都能找到；有时候要用 CC 来写的时候，GPT 又能从 CC 写的代码中找到一堆错误，这种体感就不得不会让我对 Opus 的评价再下降一些
说到 Fable 5 ，说实话，体感上可以和 GPT 5.5 掰掰手腕了，但是太贵，CC 的对抗式 Code Review ，Fable 5 刚发布那会儿我 100 刀的来看一个新的 Feature ，5 小时限额用完都没有跑出来结果，消耗实在是太大了，后来补差升级，结果自然是好的，真能找出来问题
再说回 Opus 4.6 ，因为我后期什么 CLI 都用了，例如 Google 的 gemini ，后来换了 Google 的 agy ，然后我还有很早期的 Amazon Q Developer 也就是现在的 kiro-cli ，当然也试了 OpenCode+DS4 ，还有腾讯的 Code Buddy ，结论是 kiro-cli 的 Opus 4.6 真的还是能打的，不比 4.7/4.8 弱，Google 的 gemini 质量算差的，有时候感觉是夸夸学院毕业，OpenCode+DS4 质量也还行，但是只能用来 Review ，写代码写不下来，Code Buddy 完全不行，差挺多的
如何对抗降智，我没有很明显感知到 GPT5.5 降智，我算是银弹攻势吧，4 个 Review 不够就六个，堆起来然后多轮 review ，总能解决问题
我也让 AI 总结了，我花了一半多的时间进行重构/找逻辑漏洞/找 BUG/降复杂度，我觉得是值得的，我们都不喜欢又臭又长的代码，不过其中消耗的心力和时间是实打实的
工程判断能力，大概是 AI 最缺的一部分，这就是人类的用处了，知道什么时候选择什么，做到什么程度，要收敛，不然 AI 就会无休止的死磕，并且有些场景用人类经验可以直接给到最优解，但是 AI 总是再边缘打转，这个问题出现过很多次了，对于应用来说可能还行，对于稍稍严肃点的项目来说，就需要更多的人类判断
要有 tracking 文档，例如复杂度变高，新增一个 feature 后，一般会用干净的 session ，每个大模型取两个，生成四组 findings ，然后再做合并成一个大的 tracking 文档，再由 Main Coder 进行处理，同时由既定的 4 个 Reviewer 再对修改做 Reviewer ，是很古法，但是也算是很有效
Codex Cloud 有个 Security ，能发现一些问题，但是不能全信，同时 GitHub Copilot AI 也能发现点问题，但是那个可信就更弱点，Codex Cloud 几天前的更早一些时间是有一次可以 4x 出 Review 的，但是现在把这个同时启动 1/2/3/4 个的这个功能下线了，有点可惜
Claude Code 的 Cloud 功能上比 Codex 完备点，但是只能手动多启动多个 session ，也是挺好用的 Review
Claude Code 很喜欢写注释，Commit Message 也非常长，而且很喜欢提交； Codex 的干净注释是和我胃口的，Codex 的自动批准算是比 Claude Code 好用一些，也真能挡住一些操作。

大概就这些碎碎念了，欢迎交流。

模型

代码

测评

15 replies • 2026-06-28 02:11:47 +08:00

kkth

Jun 25

300 亿 token ？走的中转站吗？还是官网，出了多少项目啊？给大佬跪了

Had

PRO

Jun 25

@kkth 一个 cli 一个本体一个配套的 CHAT 实际上算一个项目:)

当然是官网订阅啊不敢用中转站

235777178

Jun 25

我有个问题，关于 codex 的，不知道你遇到过没有。
就是，给了他一个指令，他回答你：好的。然后就没有后续了。

Had

PRO

Jun 25

@235777178 没有感觉应该从连接上诊断一下

jimx

Jun 25

4 个 Reviewer(2CC +2Codex)这个大佬是怎么搞的，是起四个 subagent 然后一起 review 吗，codex 里面也可以调用 claude code 吗，claude code 里面可以调用 codex 倒是试过

AdamMaggie

Jun 25

倒是提醒我了，老是让 Agent 优先考虑干净的 Arch Design ，却从来没考虑过降复杂度。。

Had

PRO

Jun 25

@AdamMaggie 降复杂度以及清理 over engineering

EnterpriseD

Jun 26 via iPhone

“但是现在把这个同时启动 1/2/3/4 个的这个功能下线了”

这个手机版 codex 还有

Had

PRO

Jun 26

@EnterpriseD 哦？不错啊，用来拉阶段性审计挺有用，不过这个跑的也不深就是了

wikisu

Jun 27

好奇 op 做这个 infra 的动机是什么？ faas 有开源方案吧，cf 的这一套底层很复杂吧，再加上后续如果更新特性的话怎么跟进？

Had

PRO

Jun 27

@wikisu
最开始是公司内部希望有个小的平台承载一些轻量化的定制开发
个人之前也有用 Workers ，对它的模型算满意，就简单 spike 了下，它的 dynamic loader 的确是可用的，于是就从这里开始慢慢就把功能都接了进来
至于你说 FaaS 有开源方案，当然有，但是 workerd 风格的 FaaS 并没有完成度这样高的，或者再扩大到整个开源 FaaS ，就某些角度的完成度不能说前几批次也能算排名靠前
因为不 fork workerd ，所以目前的策略就是一直追 workerd 呗
目前已经把基本的功能做全了，其他的也会根据需要做，也有适度扩展功能

limusi

Jun 27

厉害, 这工作量得把订阅都薅秃了吧..
赞域名,
你这有什么典型的应用场景吗? 感觉可以把 Cloudflare 压榨干的样子

wikisu

Jun 27

👍 我看后台还是 rust 写的，对 ai 友好的应该是 py go 这种，这也不算小平台了，不过业务驱动的话也还好。

Had

PRO

Jun 28

@limusi
没能用 cloudflare 的肯定不会用这个啊场景并不重合
例如你希望用 workers 的心智模型，但是又希望基础设施在自己这边，或者比如说企业内部有一个自己的 CHAT ，企业员工可以根据自己的需要生成代码然后直接可以部署到企业自己完全托管的 WDL 上

Had

PRO

Jun 28

@wikisu
其实应当说目前没有前台啊:)全都是后台
只是几个组件是 rust ，整体是七个组件
稍稍有点误区 rust 其实 AI 很友好的，约束越多的语言对 AI 来说越好写，我们怕 AI 发散
再加上虽然慢但是强大的编译，一般意义上写的乱了还不会影响性能，反正编译了也拉回来了
基础设施没有小平台，除非我不做有状态的，那样比较简单，我下一步也准备把平台拆更清楚点，分为 wdl-core 和 wdl-extra 这样，不用完整部署整个 stack
这个平台部署下来成本挺低的，一个月一千多一点吧，在 aws china 的话，换其他云应该更省一些

深度 Vibe Coding 2 个月 用了三百多亿 Token 一些统计数据和碎碎念

深度 Vibe Coding 2 个月用了三百多亿 Token 一些统计数据和碎碎念