Hi V 友们,我是李亚飞,ClackyAI 创始人,老 V 友。
上次给大家介绍过我们的云端版 ClackyAI (v2ex.com/t/1175020),主打"不懂技术也能从 0 做出可上线的产品"。这次发的是另一条线:我们把 ClackyAI 的内核完全开源,用 Ruby 原生重写成第三版架构,做成本地可用的通用 AI Agent —— OpenClacky 1.0,今天正式发布,100% MIT。
一句话定位:最省 Token 的开源 AI Agent ,能力对齐 Claude Code ,成本仅 Hermes 的 1/6 。
GitHub:github.com/clacky-ai/openclacky(求 Star ⭐)

现在用 AI 干活的人越来越多——不只是程序员写代码,做 PPT 、写营销方案、跑竞品调研、整理会议纪要、做日常办公自动化的人都在用。但用过一段时间,绝大多数人都会撞上同一堵墙:账单。
市面上不少"知名" Agent 是结构性的吞金兽——一个完整任务下来 30 美金不算夸张。问题往往不在模型本身,而在 Agent 的 Harness 工程:Cache 设计不合理、工具集膨胀、压缩破坏缓存、上下文反复重建。每一层都在悄悄烧钱,用户却只能在月底被账单教育一次。
OpenClacky 的取舍从第一天就很明确:把"省 Token"做成顶层 Harness 设计目标,而不是事后做的优化补丁。前两代架构(第一代 RAG 、第二代云端多 Agent )我们踩过很多坑,最后得出的结论是——用户想要的只是把任务又快又好地完成,最好的架构不是盲目追求多 Agent 和复杂编排,而是在单 Agent 上把效果和成本控制做到极致。
第三代架构因此诞生:Ruby 从零重构,历时三个月,围绕 Cache 、工具集、压缩、自进化等七个核心决策重新设计——这就是今天的 OpenClacky 。
架构做完了,效果到底怎么样?我们花了十多天做横向评测,把市面主流的几个 Agent——Claude Code 、OpenClaw 、Hermes——拉到同一条起跑线。统一用 claude-opus-4-7 作为底层模型:这是目前最强、单价也最贵的模型,最容易暴露各家 Harness 的真实水平,省一点点都是真金白银。
如前面说的,统一用 claude-opus-4-7 作为底层模型;同 prompt 、同 skill 、同时间段,4 家 Agent 跑同样 3 个真实任务:
| Agent | 总成本 | Cache 命中率 | 请求数 |
|---|---|---|---|
| OpenClacky | $5.10 | 90.6% | 51 |
| Claude Code | $5.49 | 95.2% | 70 |
| OpenClaw | $15.70 | 88.7% | 81 |
| Hermes | $30.14 | 60.3% | 218 |
一句话总结:51 个请求 + 90.6% 命中率 → $5.10 ; Hermes 218 个请求 + 60.3% 命中率 → $30.14 。
数据来源:OpenRouter 逐请求账单 CSV。不是我们自己的日志,是第三方账单。
→ benchmark 总览页:openclacky.com/benchmark


写代码自不在话下,评测的 3 个任务,是最常见的日常办公/创作场景:
第一个:10 页商务 PPT ( AI Agent 行业趋势汇报) /benchmark/guizang-ppt-skill OpenClacky **$1.23** · Claude Code $1.45 · OpenClaw $5.07 · Hermes $10.96
第二个:AI 客服 SaaS 营销方案 + 可运行官网首页(双交付) /benchmark/marketing-psychology OpenClacky $1.72 · Claude Code **$1.20** · OpenClaw $7.47 · Hermes $4.65 (这一项 Claude Code 胜出)
第三个:B2B SaaS 竞品分析 + 一周社媒内容日历( 6 步流水线) /benchmark/social-content OpenClacky $2.14 · Claude Code $2.84 · OpenClaw $3.15 · Hermes $14.53
每个落地页都包含:原始 Prompt 全文、四家原始产物、全程屏幕录像、逐请求数据表。一切都摆出来,不藏着。

离 "Claude Code" 还有多远,先把几件事说清楚:
不是"砍功能换省",是每一层都做对了选择。这里挑 4 个最关键的讲,更完整的 7 条决策见技术内幕。
① 始终追求 100% Cache 命中
Session 全程 system prompt 永不重建,动态变化的内容( Skill 列表、模型切换)以独立 [session context] 块插入,不破坏缓存断点;同时对最后 2 条消息双重打 cache_control,避免 N+1 轮时标记错位。绝大多数 Agent 一遇到 Skill 重载就重启 session 、所有缓存全部失效——这个代价我们降为零。
② 最小工具集:一切皆 Skill
核心工具仅 16 个( Claude Code 40+ / OpenClaw 23 / Hermes 52 )。靠 invoke_skill 这个元工具把所有复杂能力外包给 Skill 生态:sub-agent 调用、代码库探索、记忆召回、定时任务……全都在核心工具列表之外。工具数量不是竞争力,任务完成率才是。 用户安装新 Skill ,工具数不增、schema 不变、cache 不受影响。
③ Insert-then-Compress:压缩本身也命中缓存 常见做法是新开一个 LLM 调用做压缩——这会让所有已建立的 cache 全部失效。OpenClacky 把压缩指令直接插入当前对话流,在下一轮正常请求时顺带完成。压缩的 cache 天然复用,成本接近零。
④ BYOK ,模型渠道你挑 任意 OpenAI 兼容 API 即插即用。主任务 Claude 、子任务 DeepSeek ,再省一截。

可能有朋友会问:做 AI Agent 不是 Python 的天下吗,怎么用 Ruby ?
第一代和第二代我们用的就是 Python 。迭代到第二版之后,Agent 的瓶颈在 LLM 调用而非语言性能这一点已经很清楚——决定一个 Agent 跑得好不好的,是 Harness 层的架构设计,不是底层语言的执行速度。
第三代用 Ruby 重写,主要是为了 Harness 工程的表达力:DSL 和元编程让 Session / Cache / Tool 三层关系写起来更顺,工具/Skill 系统的边界也更容易划清楚。前两代踩过的坑,反过来催生了这次架构层面的清算式重写——三个月,从零到一,做出了今天这个内核。
OpenClacky 不是只有一个跑得快的 Agent 内核,配套的是一整套日常工作流要用的能力:
openclacky 进入对话模式,是 Claude Code 的开源替代/skill-add <url> 装社区 Skill~/.clacky/memories/,按相关性召回,不污染上下文🛠️ 程序员 / 开发者
CLI 形态直接替代 Claude Code ,BYOK 用自己的 Key ,月底账单直接砍掉一大半。.clackyrules 自动加载项目规范,三级权限控制,diff 预览,跟 Claude Code 该有的都有。
🚀 Indie hacker / 副业开发者 同样的 200 美金预算,原本只够跑 1 个项目,现在能跑 6 个 —— 试错速度直接 ×6 。
📊 一人公司 / 自由职业者 做客户提案、写咨询报告、出竞品分析、整理材料 —— 原本一个月 AI 账单 $300 现在 $50 ,省下来的就是利润。
💼 行业从业者(市场 / 运营 / 销售 / HR / 律师 / 咨询) 日常做方案、写分析、整理资料 —— 每个任务从 $5 降到 $1 ,配合 Skill 库基本不用自己写 prompt 工程。
⚙️ 极客 / 重度 AI 用户 Web UI + CLI + 定时任务 + IM 集成 + 浏览器自动化 + Skill 自进化 + 长期记忆 —— 想搭多复杂的个人工作流都能搭。
简单粗暴的算账:每天 10 个任务,省下来的 Token 钱,一年就是几万刀。
桌面安装包(推荐,最省心)
命令行(熟手)
openclacky 进入对话模式模型怎么接
下载与文档:openclacky.com

V 站老规矩:欢迎来拍砖、提 issue 、Star 支持。
特别欢迎跑你自己的真实任务来挑战 benchmark —— 跑得比我们便宜的,我们公开认;跑得比我们贵的,我们当 issue 修。
GitHub:github.com/clacky-ai/openclacky 官网:openclacky.com 评测:openclacky.com/benchmark
有想深度交流的朋友,V 站私信我,或者直接 GitHub issue 。
隔壁挑战视频来,今天团队做了相同任务(一个商务PPT生成)、相同模型、在相同时间的对比,以下是结果:
OpenClacky $1.18 美元 VS GenericAgent 1.82 美元。(每次结果肯定不完全一致,但完全可以体现双方的技术特点)
非常省心的是,双方都是很快顺利完成交付。(之前测某海外Agent时花了极大的功夫,各种卡响应不提了)
OpenClacky:高缓存命中,轮次更少,速度快。(除首轮预热完,全部命中,花费还带有Skills进化一轮的费用)
GenericAgent:优秀的Token控制能力(只有九个工具,OpenClacky 16个,ClaudeCode 40+),但有3轮缓存命中低于50%,可能是架构设计原因,速度也不错。
全面技术参数对比:https://www.openclacky.com/benchmark/openclacky-vs-generic-agent
OpenClacky 录制视频:https://oss.1024code.com/benchmark/openclacky-vs-generic-agent/openclacky.mp4
GenericAgent 录制视频:https://oss.1024code.com/benchmark/openclacky-vs-generic-agent/generic.mp4
1
ytyyt 19h 55m ago 同为 agent 从业者,看完这篇认真读了两遍。几个点说说我的理解:
市面上大多数 Agent 产品的营销重点都放在"能做什么",很少有人把 Harness 层的工程决策拿出来往清楚讲。cache 命中率、工具集大小、压缩破坏缓存这些细节,真正用本地 agent 跑复杂任务的人都会懂——账单是真实的痛。 "Insert-then-Compress"这个设计我觉得是文章里有意思的一点。把压缩指令插进当前对话流而不是新开 LLM 调用,避免了 cache 失效,又几乎没有额外成本,这是典型的"做对了一件小事,但复利效应很大"的工程决策。很多团队不是不知道,而是在原有架构上打补丁补不进去。 Ruby 重写的理由我觉得合理。最开始看到 Ruby 我也下意识觉得奇怪,但"Agent 瓶颈在 LLM 调用而非语言性能"这个判断是对的,DSL 和元编程确实更适合描述 Session/Cache/Tool 三层关系,选语言的逻辑是清醒的,不只是情怀驱动。 一个小疑问:benchmark 里 Claude Code 在 cache 命中率上( 95.2%)高于 OpenClacky ( 90.6%),文章解释是闭源 Harness + 自动切 haiku 的优势。但如果 OpenClacky 在新版本里命中率也接近 100% 了,那总成本对比会更有说服力,期待后续公布更新后的数据。 开源 + MIT + BYOK 这个组合对独立开发者和小团队来说确实实在。去 star 了,准备上手试试,后续持续关注。 |
2
smiletow6 19h 53m ago
实测成本远低于同类 Agent ,缓存和 Token 优化做得挺好的,平替 Claude Code 性价比简直拉满呀
|
3
wonderfulcxm 19h 49m ago via iPhone
对比隔壁的怎么看: https://www.v2ex.com/t/1211200
|
4
utodea 19h 31m ago
👍🏻。 /benchmark/guizang-ppt-skill 和 /benchmark/marketing-psycholog 的跳转好像有问题,没跳到用例里去,手动输入也不行。
也欢迎试试我的 DeepSeek-Native CLI: https://github.com/usewhale/whale 用 Ruby 重写是真没想到... |
6
yafeilee OP PRO @wonderfulcxm 去看了一下热闹,在 token 消耗上大家的思路有相似性,他们我感觉比较学术一些,OpenClacky 定位是一个成熟工程项目,也更适合不折腾的人群。
|
7
sizzyxixi 18h 48m ago
我用 OpenClacky 有一段时间了,给我比较直观的感受就是记忆方面我比较省心,几乎不用自己调。一开始我有点惊喜也很担心上下文爆炸的问题。不过我没有横向比对过,今天就看到主创的横比报告。👍🏻
|
8
Xhack 18h 40m ago
"不懂技术也能从 0 做出可上线的产品" 这种噱头,做出的产品谁敢用?
|
9
defunct9 18h 23m ago
https://v2ex.com/t/1211200 来来来,pk 一下
|
10
snxq1995 18h 15m ago
这两天刚开始使用 pi coding agent ,主打的也是省 token 。能做下相关的横向对比吗,毕竟现在 Agent 层出不穷,试用成本以及试用信任也在逐步提高。
|
12
closedevice 17h 33m ago
关注下,明天试试
|
13
llggg 17h 11m ago
看了下 benchmark ,至少不像很多 Agent 项目只放“精选案例”。
其实现在大家都在卷模型,真正烧钱的很多时候确实是 Harness 层。 尤其 cache 命中率、工具数量、上下文重建这些东西,平时不用大规模跑任务的人很难有体感,一旦真拿来干活,月底账单会非常真实。 Ruby 重写一开始觉得离谱,但细想也合理——Agent 现在瓶颈更多是上下文和调用编排,不是语言性能。 准备明天拿自己一套实际工作流跑跑看,如果真能稳定把成本打到 Claude Code 一半以下,那确实有点东西。 |
14
Lknifeo 16h 20m ago
刚转到 pi coding agent,就有新的了.期待下 op 测评结果.
|
15
Justin13 16h 14m ago via Android
为啥没有 codex 对比?
|
16
yuhangch 16h 8m ago
心动,试一下~
|
17
yuhangch 16h 5m ago
@yuhangch
OpenClacky Installation ℹ Detected OS: Linux ℹ Detected Linux distribution: debian ℹ Detected shell: fish (rc file: /root/.config/fish/config.fish) ==> Network pre-flight check... ⚠ UNREACHABLE google.com ✓ OK (0.0s) baidu.com ✓ Region: china ✓ OK (0.4s) CN CDN (mise/Ruby) ✓ OK (0.1s) Aliyun (gem) ℹ CN mirrors applied ℹ Region: China — configuring Aliyun apt mirror ✓ apt mirror set to Aliyun E: The repository 'https://mirrors.aliyun.com/ubuntu trixie Release' does not have a Release file. E: The repository 'https://mirrors.aliyun.com/ubuntu trixie-updates Release' does not have a Release file. E: The repository 'https://mirrors.aliyun.com/ubuntu trixie-backports Release' does not have a Release file. E: The repository 'https://mirrors.aliyun.com/ubuntu trixie-security Release' does not have a Release file. |
18
yafeilee OP PRO @yuhangch 你用的 fish 的 shell 呀 厉害 你用的非 Ubuntu Linux 的话,可以直接用 gem install openclacky 安装。系统默认的 ruby 版本都能支持上。特别方便。
|
21
jacketma 15h 43m ago
针对国内用户的话,产品只需要 4 个字:CC 平替。
早年互联网企业发家的时候,一句话:对比 US 某某,就可以上市了 |
22
Ccf 15h 29m ago
|
24
thinkwei2012 14h 31m ago
支持开发票嘛,
|
25
yafeilee OP PRO @thinkwei2012 支持,可以加我们客服联系。先加我微信 lyfi2003 帮你对接。
|
26
ivvei 14h 2m ago via Android 楼主和一楼都是 AI 生成的文字吧。看上去还以为机器人聊天
|
27
yafeilee OP PRO 隔壁挑战视频来,今天团队做了相同任务(一个商务 PPT 生成)、相同模型、在相同时间的对比,以下是结果:
OpenClacky $1.18 美元 VS GenericAgent 1.82 美元。(每次结果肯定不完全一致,但完全可以体现双方的技术特点) 非常省心的是,双方都是很快顺利完成交付。(之前测某海外 Agent 时花了极大的功夫,各种卡响应不提了) OpenClacky:高缓存命中,轮次更少,速度快。(除首轮预热完,全部命中,花费还带有 Skills 进化一轮的费用) GenericAgent:优秀的 Token 控制能力(只有九个工具,OpenClacky 16 个,ClaudeCode 40+),但有 3 轮缓存命中低于 50%,可能是架构设计原因,速度也不错。 全面技术参数对比: https://www.openclacky.com/benchmark/openclacky-vs-generic-agent OpenClacky 录制视频: https://oss.1024code.com/benchmark/openclacky-vs-generic-agent/openclacky.mp4 GenericAgent 录制视频: https://oss.1024code.com/benchmark/openclacky-vs-generic-agent/generic.mp4 晚点会放出来与 Pi Agent 的对比。 |
28
yafeilee OP PRO 继续补充上,OpenClacky ($1.18, 90.7%缓存命中) vs Pi Agent($1.79, 75.8%)
Pi Agent 单轮循环 Token 少 40%,但轮次更多,命中率更低。 https://www.openclacky.com/benchmark/openclacky-vs-pi-agent |
29
AlexZBG 12h 14m ago via Android
支持一波,试用看看
|
32
icyalala 11h 56m ago
上周刚看了 Claude Code 的博客:
https://claude.com/blog/lessons-from-building-claude-code-prompt-caching-is-everything 缓存命中率这个确实是省钱的重中之重,这个方向确实是对的 |
34
Atukey 11h 7m ago
可以使用 MCP 吗?
|
36
zsj1029 7h 55m ago via iPhone
重点不该是解决问题吗?同一个编码任务 cc 确实强,opencode 比不了。同样的模型,对任务用时,结果也有影响,不该只把完成,作为评估结果。所以节省 token 我觉得不是首位要考虑的问题。有空试一下效果,支持一下
|
37
yusf 6h 56m ago
缓存命中率这种东西需要刻意去设计吗?难不成你每次请求的时候前面的 message 还会变化?你这发文和下面几个评论给我感觉像演双簧的一样
|
38
EdwardKot 5h 54m ago
start 了,UI 不太美观(吹毛求疵了),用着目前挺舒服的
|
39
nbndco 2h 52m ago via iPhone
感觉在优化一个不存在的问题,cache 命中难道不是理所当然的事情吗,难道还有人会去修改之前的 history ?
|
42
yesha 1h 28m ago
windows 尝试安装,竟然安装了整套 wsl 虚拟机
|
43
yesha 1h 21m ago
然后叫自己小龙虾?
|
44
Tink PRO 这么浓的 AI 文章你们是怎么能读下去的
|
45
lekai63 35 mins ago 蹲一个 docker 。 暂无合适的单独的真机给 agent 用
|