• 请不要在回答技术问题时复制粘贴 AI 生成的内容
Had
V2EX  ›  程序员

深度 Vibe Coding 2 个月 用了三百多亿 Token 一些统计数据和碎碎念

  •  1
     
  •   Had ·
    PRO
    · 12h 25m ago · 1078 views

    一个月前发了贴( Codex 使用量分析): https://v2ex.com/t/1213114

    目前这个 Infra 项目也 public release 了, https://wdl.dev/

    项目在一开始是 CC 为主的,当时还是 Opus 4.6 ,后来 GPT 5.5 来了,就主要由 Codex 主程了,最大的一个 session (也就是我所谓的 Main Coder ),目前累积的 input 已经有 10B (一百亿)了。

    Codex 2026-04-13 to 2026-06-24 统计如下:

    指标 数值
    Total tokens 17,997,228,583
    Input 17,852,969,037
    Cached input 17,097,716,224
    Output 37,707,353
    Reasoning output 11,175,876
    非缓存 Input 755,252,813
    Net 792,960,166
    缓存命中率 95.77%
    调用次数 116,485
    会话数 296
    日均 Total 246,537,377.85

    事实上从第二周开始 Codex 就开始接手了,Claude Code 主要是 Review (当然也有在 Codex 烧完,我又不想继续充钱时,它接手),但是即便是 Review ,Claude 也消耗了非常多的 Token ,以下是统计数据,Claude Code 从 5 月 4 日开始不再有一个月滚动存储,而是完整存储,所以项目虽然是 413 就开始最小 demo ,但是我最早本地统计只有 417 的,拼接一下是这样

    按“2026-04-17 to 2026-05-03 用旧报表,2026-05-04 to 2026-06-24 用当前日志”的混合口径,Claude Code 统计如下:

    指标 数值
    范围 2026-04-17 to 2026-06-24
    Total tokens 12,708,166,023
    Input 4,820,408
    写缓存 351,000,106
    读缓存 12,317,263,840
    Output 35,081,669
    总输入 12,673,084,354
    Net 390,902,183
    缓存命中率 97.19%
    调用次数 51,750
    会话数 约 220-230

    也就是 token 总消耗量大概在,三百多亿,粗算如果都走 API ,成本大概是 25K USD 左右,但是现在仅需 Codex 的多次 reset (当然也有我有时候充值点 Credit ,总数不多),再加上 200 刀的 ChatGPT 和 100 刀的 Claude Code (话说 100 刀 Fable 做 Code Review 根本做不下来,只能再补差 200 刀,结果 Fable 用了几天没了),就能搞定了,这样看订阅真是大善人?

    最后大概发散几个体验吧,我属于古法 Vibe Coding 派的,skill 除了自己的一个 Refactor Guard 以外,其他一概不用,所以以下体验可能存在优化空间

    1. Opus 的 1M 上下文,从体感上和 GPT 的 258K 没有太大区别,GPT 的 Compact 是真能记得住,Opus 你但凡 Compact 了一回来就像个傻子一样
    2. 大概也就是我古法 Vibe Coding ,所以体感上 Opus 4.7 和 4.8 是质量不怎么样,的确没有 5.5 好,因为我一个 Main Coder+4 个 Reviewer(2CC +2Codex),所以需要模型能力势均力敌的,4.7 和 4.8 有时候就是找不到 P1 错误,不核心的大家都能找到;有时候要用 CC 来写的时候,GPT 又能从 CC 写的代码中找到一堆错误,这种体感就不得不会让我对 Opus 的评价再下降一些
    3. 说到 Fable 5 ,说实话,体感上可以和 GPT 5.5 掰掰手腕了,但是太贵,CC 的对抗式 Code Review ,Fable 5 刚发布那会儿我 100 刀的来看一个新的 Feature ,5 小时限额用完都没有跑出来结果,消耗实在是太大了,后来补差升级,结果自然是好的,真能找出来问题
    4. 再说回 Opus 4.6 ,因为我后期什么 CLI 都用了,例如 Google 的 gemini ,后来换了 Google 的 agy ,然后我还有很早期的 Amazon Q Developer 也就是现在的 kiro-cli ,当然也试了 OpenCode+DS4 ,还有腾讯的 Code Buddy ,结论是 kiro-cli 的 Opus 4.6 真的还是能打的,不比 4.7/4.8 弱,Google 的 gemini 质量算差的,有时候感觉是夸夸学院毕业,OpenCode+DS4 质量也还行,但是只能用来 Review ,写代码写不下来,Code Buddy 完全不行,差挺多的
    5. 如何对抗降智,我没有很明显感知到 GPT5.5 降智,我算是银弹攻势吧,4 个 Review 不够就六个,堆起来然后多轮 review ,总能解决问题
    6. 我也让 AI 总结了,我花了一半多的时间进行重构/找逻辑漏洞/找 BUG/降复杂度,我觉得是值得的,我们都不喜欢又臭又长的代码,不过其中消耗的心力和时间是实打实的
    7. 工程判断能力,大概是 AI 最缺的一部分,这就是人类的用处了,知道什么时候选择什么,做到什么程度,要收敛,不然 AI 就会无休止的死磕,并且有些场景用人类经验可以直接给到最优解,但是 AI 总是再边缘打转,这个问题出现过很多次了,对于应用来说可能还行,对于稍稍严肃点的项目来说,就需要更多的人类判断
    8. 要有 tracking 文档,例如复杂度变高,新增一个 feature 后,一般会用干净的 session ,每个大模型取两个,生成四组 findings ,然后再做合并成一个大的 tracking 文档,再由 Main Coder 进行处理,同时由既定的 4 个 Reviewer 再对修改做 Reviewer ,是很古法,但是也算是很有效
    9. Codex Cloud 有个 Security ,能发现一些问题,但是不能全信,同时 GitHub Copilot AI 也能发现点问题,但是那个可信就更弱点,Codex Cloud 几天前的更早一些时间是有一次可以 4x 出 Review 的,但是现在把这个同时启动 1/2/3/4 个的这个功能下线了,有点可惜
    10. Claude Code 的 Cloud 功能上比 Codex 完备点,但是只能手动多启动多个 session ,也是挺好用的 Review
    11. Claude Code 很喜欢写注释,Commit Message 也非常长,而且很喜欢提交; Codex 的干净注释是和我胃口的,Codex 的自动批准算是比 Claude Code 好用一些,也真能挡住一些操作。

    大概就这些碎碎念了,欢迎交流。

    7 replies    2026-06-25 18:00:00 +08:00
    kkth
        1
    kkth  
       9h 48m ago
    300 亿 token ?走的中转站吗?还是官网,出了多少项目啊?给大佬跪了
    Had
        2
    Had  
    OP
    PRO
       9h 30m ago
    @kkth 一个 cli 一个本体一个配套的 CHAT 实际上算一个项目:)

    当然是官网订阅啊 不敢用中转站
    235777178
        3
    235777178  
       8h 50m ago
    我有个问题,关于 codex 的,不知道你遇到过没有。
    就是,给了他一个指令,他回答你:好的。然后就没有后续了。
    Had
        4
    Had  
    OP
    PRO
       8h 35m ago
    @235777178 没有 感觉应该从连接上诊断一下
    jimx
        5
    jimx  
       8h 15m ago
    4 个 Reviewer(2CC +2Codex)这个大佬是怎么搞的,是起四个 subagent 然后一起 review 吗,codex 里面也可以调用 claude code 吗,claude code 里面可以调用 codex 倒是试过
    AdamMaggie
        6
    AdamMaggie  
       8h 2m ago
    倒是提醒我了,老是让 Agent 优先考虑干净的 Arch Design ,却从来没考虑过降复杂度。。
    Had
        7
    Had  
    OP
    PRO
       7h 58m ago
    @AdamMaggie 降复杂度 以及 清理 over engineering
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1126 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 43ms · UTC 17:58 · PVG 01:58 · LAX 10:58 · JFK 13:58
    ♥ Do have faith in what you're doing.