同样 3 个任务，他们花了 30 美金，我们 5 美金 —— OpenClacky 1.0 发布，最省 Token 的开源 AI Agent

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

爱意满满的作品展示区。

Hi V 友们，我是李亚飞，ClackyAI 创始人，老 V 友。

上次给大家介绍过我们的云端版 ClackyAI （v2ex.com/t/1175020），主打"不懂技术也能从 0 做出可上线的产品"。这次发的是另一条线：我们把 ClackyAI 的内核完全开源，用 Ruby 原生重写成第三版架构，做成本地可用的通用 AI Agent —— OpenClacky 1.0，今天正式发布，100% MIT。

一句话定位：最省 Token 的开源 AI Agent ，能力对齐 Claude Code ，成本仅 Hermes 的 1/6 。

官网：openclacky.com

GitHub：github.com/clacky-ai/openclacky（求 Star ⭐）

一、为什么做这件事

现在用 AI 干活的人越来越多——不只是程序员写代码，做 PPT 、写营销方案、跑竞品调研、整理会议纪要、做日常办公自动化的人都在用。但用过一段时间，绝大多数人都会撞上同一堵墙：账单。

市面上不少"知名" Agent 是结构性的吞金兽——一个完整任务下来 30 美金不算夸张。问题往往不在模型本身，而在 Agent 的 Harness 工程：Cache 设计不合理、工具集膨胀、压缩破坏缓存、上下文反复重建。每一层都在悄悄烧钱，用户却只能在月底被账单教育一次。

OpenClacky 的取舍从第一天就很明确：把"省 Token"做成顶层 Harness 设计目标，而不是事后做的优化补丁。前两代架构（第一代 RAG 、第二代云端多 Agent ）我们踩过很多坑，最后得出的结论是——用户想要的只是把任务又快又好地完成，最好的架构不是盲目追求多 Agent 和复杂编排，而是在单 Agent 上把效果和成本控制做到极致。

第三代架构因此诞生：Ruby 从零重构，历时三个月，围绕 Cache 、工具集、压缩、自进化等七个核心决策重新设计——这就是今天的 OpenClacky 。

架构做完了，效果到底怎么样？我们花了十多天做横向评测，把市面主流的几个 Agent——Claude Code 、OpenClaw 、Hermes——拉到同一条起跑线。统一用 claude-opus-4-7 作为底层模型：这是目前最强、单价也最贵的模型，最容易暴露各家 Harness 的真实水平，省一点点都是真金白银。

二、直接亮数据：3 个任务横评 4 家 Agent

如前面说的，统一用 claude-opus-4-7 作为底层模型；同 prompt 、同 skill 、同时间段，4 家 Agent 跑同样 3 个真实任务：

Agent	总成本	Cache 命中率	请求数
OpenClacky	$5.10	90.6%	51
Claude Code	$5.49	95.2%	70
OpenClaw	$15.70	88.7%	81
Hermes	$30.14	60.3%	218

一句话总结：51 个请求 + 90.6% 命中率 → $5.10 ； Hermes 218 个请求 + 60.3% 命中率 → $30.14 。

数据来源：OpenRouter 逐请求账单 CSV。不是我们自己的日志，是第三方账单。

→ benchmark 总览页：openclacky.com/benchmark

三、三个任务评测实战（带 prompt 、产物、全程录屏）

写代码自不在话下，评测的 3 个任务，是最常见的日常办公/创作场景：

第一个：10 页商务 PPT （ AI Agent 行业趋势汇报） /benchmark/guizang-ppt-skill OpenClacky **$1.23** · Claude Code $1.45 · OpenClaw $5.07 · Hermes $10.96

第二个：AI 客服 SaaS 营销方案 + 可运行官网首页（双交付） /benchmark/marketing-psychology OpenClacky $1.72 · Claude Code **$1.20** · OpenClaw $7.47 · Hermes $4.65 （这一项 Claude Code 胜出）

第三个：B2B SaaS 竞品分析 + 一周社媒内容日历（ 6 步流水线） /benchmark/social-content OpenClacky $2.14 · Claude Code $2.84 · OpenClaw $3.15 · Hermes $14.53

每个落地页都包含：原始 Prompt 全文、四家原始产物、全程屏幕录像、逐请求数据表。一切都摆出来，不藏着。

四、坦白说几句，欢迎来挑战

离 "Claude Code" 还有多远，先把几件事说清楚：

Claude Code 在 cache 命中率上（ 95.2%）确实比我们高（我们 90.6%），这是世界顶级的闭源 Harness ，另外它内部有自动切换 haiku 模型的能力，会让它的成本优势相对明显。我们的优势是在 请求数 × 命中率 的乘积上更优，且完全开源、可自托管、BYOK。新的 1.0.1 版本已经在实际使用做到接近 100%的命中率。
打个小广告：如果你使用 OpenClacky AI Keys 自托管方案，也可以享受子任务自动切便宜模型的特性（无须手工配置）
欢迎你来挑战：
- 装好 OpenClacky ，用你自己的 OpenRouter Key
- 跑 benchmark 页面里的同款 prompt
- 对比账单 CSV
- 跑出比我们便宜的，欢迎 PR ；跑出我们更贵的，提 issue 我们改

五、凭什么这么省 —— 4 个 Harness 工程决策

不是"砍功能换省"，是每一层都做对了选择。这里挑 4 个最关键的讲，更完整的 7 条决策见技术内幕。

① 始终追求 100% Cache 命中 Session 全程 system prompt 永不重建，动态变化的内容（ Skill 列表、模型切换）以独立 [session context] 块插入，不破坏缓存断点；同时对最后 2 条消息双重打 cache_control，避免 N+1 轮时标记错位。绝大多数 Agent 一遇到 Skill 重载就重启 session 、所有缓存全部失效——这个代价我们降为零。

② 最小工具集：一切皆 Skill 核心工具仅 16 个（ Claude Code 40+ / OpenClaw 23 / Hermes 52 ）。靠 invoke_skill 这个元工具把所有复杂能力外包给 Skill 生态：sub-agent 调用、代码库探索、记忆召回、定时任务……全都在核心工具列表之外。工具数量不是竞争力，任务完成率才是。 用户安装新 Skill ，工具数不增、schema 不变、cache 不受影响。

③ Insert-then-Compress：压缩本身也命中缓存 常见做法是新开一个 LLM 调用做压缩——这会让所有已建立的 cache 全部失效。OpenClacky 把压缩指令直接插入当前对话流，在下一轮正常请求时顺带完成。压缩的 cache 天然复用，成本接近零。

④ BYOK ，模型渠道你挑 任意 OpenAI 兼容 API 即插即用。主任务 Claude 、子任务 DeepSeek ，再省一截。

六、关于 Ruby 重写

可能有朋友会问：做 AI Agent 不是 Python 的天下吗，怎么用 Ruby ？

第一代和第二代我们用的就是 Python 。迭代到第二版之后，Agent 的瓶颈在 LLM 调用而非语言性能这一点已经很清楚——决定一个 Agent 跑得好不好的，是 Harness 层的架构设计，不是底层语言的执行速度。

第三代用 Ruby 重写，主要是为了 Harness 工程的表达力：DSL 和元编程让 Session / Cache / Tool 三层关系写起来更顺，工具/Skill 系统的边界也更容易划清楚。前两代踩过的坑，反过来催生了这次架构层面的清算式重写——三个月，从零到一，做出了今天这个内核。

七、不止省钱 —— 这是一个完整的 Agent 工作平台

OpenClacky 不是只有一个跑得快的 Agent 内核，配套的是一整套日常工作流要用的能力：

Web UI + CLI 双形态：Web UI 用浏览器进入，左侧会话列表 / 中间对话 / 右侧产物预览，零命令门槛；终端党直接 openclacky 进入对话模式，是 Claude Code 的开源替代
Skill 技能库：官方内置 commit / deploy / pptx / browser-setup / cron 等一批，一行 /skill-add <url> 装社区 Skill
Skill 自进化：每次任务结束 Agent 自己评估，值得沉淀的工作流自动写成新 Skill ，已用的 Skill 也会反写优化（仅修改用户自建 Skill ，不动官方）
长期记忆：关键决策/偏好自动持久化到 ~/.clacky/memories/，按相关性召回，不污染上下文
定时任务：自然语言描述，自动生成 cron
IM 集成：飞书 / 企微 / 微信直接 @ 召唤
浏览器自动化：驱动真实 Chrome / Edge 操作网页
三级权限控制：从逐步确认到完全自动三档可切，破坏性操作有护栏

完整功能：openclacky.com/features

八、谁用谁省 —— 几类典型场景

🛠️ 程序员 / 开发者 CLI 形态直接替代 Claude Code ，BYOK 用自己的 Key ，月底账单直接砍掉一大半。.clackyrules 自动加载项目规范，三级权限控制，diff 预览，跟 Claude Code 该有的都有。

🚀 Indie hacker / 副业开发者 同样的 200 美金预算，原本只够跑 1 个项目，现在能跑 6 个 —— 试错速度直接 ×6 。

📊 一人公司 / 自由职业者 做客户提案、写咨询报告、出竞品分析、整理材料 —— 原本一个月 AI 账单 $300 现在 $50 ，省下来的就是利润。

💼 行业从业者（市场 / 运营 / 销售 / HR / 律师 / 咨询）日常做方案、写分析、整理资料 —— 每个任务从 $5 降到 $1 ，配合 Skill 库基本不用自己写 prompt 工程。

⚙️ 极客 / 重度 AI 用户 Web UI + CLI + 定时任务 + IM 集成 + 浏览器自动化 + Skill 自进化 + 长期记忆 —— 想搭多复杂的个人工作流都能搭。

简单粗暴的算账：每天 10 个任务，省下来的 Token 钱，一年就是几万刀。

九、怎么上手

桌面安装包（推荐，最省心）

macOS / Windows / Linux 三平台
双击装完，环境/依赖/Skill 全自动就位

命令行（熟手）

一行命令安装
openclacky 进入对话模式

模型怎么接

自带 Key 完全免费（任意 OpenAI 兼容 API ）
想省心也可以用 OpenClacky Keys （直连官方、99% 缓存命中、官方同价）

下载与文档：openclacky.com

十、最后

V 站老规矩：欢迎来拍砖、提 issue 、Star 支持。

特别欢迎跑你自己的真实任务来挑战 benchmark —— 跑得比我们便宜的，我们公开认；跑得比我们贵的，我们当 issue 修。

GitHub：github.com/clacky-ai/openclacky 官网：openclacky.com 评测：openclacky.com/benchmark

有想深度交流的朋友，V 站私信我，或者直接 GitHub issue 。

Supplement 1 · 13h 46m ago

隔壁挑战视频来，今天团队做了相同任务（一个商务PPT生成）、相同模型、在相同时间的对比，以下是结果：

OpenClacky $1.18 美元 VS GenericAgent 1.82 美元。（每次结果肯定不完全一致，但完全可以体现双方的技术特点）

非常省心的是，双方都是很快顺利完成交付。（之前测某海外Agent时花了极大的功夫，各种卡响应不提了）

OpenClacky：高缓存命中，轮次更少，速度快。（除首轮预热完，全部命中，花费还带有Skills进化一轮的费用）

GenericAgent：优秀的Token控制能力（只有九个工具，OpenClacky 16个，ClaudeCode 40+），但有3轮缓存命中低于50%，可能是架构设计原因，速度也不错。

全面技术参数对比：https://www.openclacky.com/benchmark/openclacky-vs-generic-agent

OpenClacky 录制视频：https://oss.1024code.com/benchmark/openclacky-vs-generic-agent/openclacky.mp4

GenericAgent 录制视频：https://oss.1024code.com/benchmark/openclacky-vs-generic-agent/generic.mp4

Supplement 2 · 12h 24m ago

继续补充上，OpenClacky （$1.18, 90.7%缓存命中） vs Pi Agent($1.79, 75.8%)

Pi Agent 单轮循环 Token 少 40%，但轮次更多，命中率更低。

https://www.openclacky.com/benchmark/openclacky-vs-pi-agent

agent

开源

成本

45 replies • 2026-05-10 09:59:54 +08:00

ytyyt

19h 55m ago

同为 agent 从业者，看完这篇认真读了两遍。几个点说说我的理解：

市面上大多数 Agent 产品的营销重点都放在"能做什么"，很少有人把 Harness 层的工程决策拿出来往清楚讲。cache 命中率、工具集大小、压缩破坏缓存这些细节，真正用本地 agent 跑复杂任务的人都会懂——账单是真实的痛。

"Insert-then-Compress"这个设计我觉得是文章里有意思的一点。把压缩指令插进当前对话流而不是新开 LLM 调用，避免了 cache 失效，又几乎没有额外成本，这是典型的"做对了一件小事，但复利效应很大"的工程决策。很多团队不是不知道，而是在原有架构上打补丁补不进去。

Ruby 重写的理由我觉得合理。最开始看到 Ruby 我也下意识觉得奇怪，但"Agent 瓶颈在 LLM 调用而非语言性能"这个判断是对的，DSL 和元编程确实更适合描述 Session/Cache/Tool 三层关系，选语言的逻辑是清醒的，不只是情怀驱动。

一个小疑问：benchmark 里 Claude Code 在 cache 命中率上（ 95.2%）高于 OpenClacky （ 90.6%），文章解释是闭源 Harness + 自动切 haiku 的优势。但如果 OpenClacky 在新版本里命中率也接近 100% 了，那总成本对比会更有说服力，期待后续公布更新后的数据。

开源 + MIT + BYOK 这个组合对独立开发者和小团队来说确实实在。去 star 了，准备上手试试，后续持续关注。

smiletow6

19h 53m ago

实测成本远低于同类 Agent ，缓存和 Token 优化做得挺好的，平替 Claude Code 性价比简直拉满呀

wonderfulcxm

19h 49m ago via iPhone

对比隔壁的怎么看： https://www.v2ex.com/t/1211200

utodea

19h 31m ago

👍🏻。 /benchmark/guizang-ppt-skill 和 /benchmark/marketing-psycholog 的跳转好像有问题，没跳到用例里去，手动输入也不行。

也欢迎试试我的 DeepSeek-Native CLI： https://github.com/usewhale/whale

用 Ruby 重写是真没想到...

yafeilee

PRO

19h 15m ago

@utodea 第一个是链接引用有点问题，已经加了别外，第 2 个你少打了一个 y 。现在访问都正常了~

yafeilee

PRO

18h 49m ago

@wonderfulcxm 去看了一下热闹，在 token 消耗上大家的思路有相似性，他们我感觉比较学术一些，OpenClacky 定位是一个成熟工程项目，也更适合不折腾的人群。

sizzyxixi

18h 48m ago

我用 OpenClacky 有一段时间了，给我比较直观的感受就是记忆方面我比较省心，几乎不用自己调。一开始我有点惊喜也很担心上下文爆炸的问题。不过我没有横向比对过，今天就看到主创的横比报告。👍🏻

Xhack

18h 40m ago

"不懂技术也能从 0 做出可上线的产品" 这种噱头，做出的产品谁敢用？

defunct9

18h 23m ago

https://v2ex.com/t/1211200 来来来，pk 一下

snxq1995

18h 15m ago

这两天刚开始使用 pi coding agent ，主打的也是省 token 。能做下相关的横向对比吗，毕竟现在 Agent 层出不穷，试用成本以及试用信任也在逐步提高。

yafeilee

PRO

17h 47m ago

@defunct9
@snxq1995 哈，好主意，我们试试~

closedevice

17h 33m ago

关注下，明天试试

llggg

17h 11m ago

看了下 benchmark ，至少不像很多 Agent 项目只放“精选案例”。

其实现在大家都在卷模型，真正烧钱的很多时候确实是 Harness 层。

尤其 cache 命中率、工具数量、上下文重建这些东西，平时不用大规模跑任务的人很难有体感，一旦真拿来干活，月底账单会非常真实。

Ruby 重写一开始觉得离谱，但细想也合理——Agent 现在瓶颈更多是上下文和调用编排，不是语言性能。

准备明天拿自己一套实际工作流跑跑看，如果真能稳定把成本打到 Claude Code 一半以下，那确实有点东西。

Lknifeo

16h 20m ago

刚转到 pi coding agent,就有新的了.期待下 op 测评结果.

Justin13

16h 14m ago via Android

为啥没有 codex 对比？

yuhangch

16h 8m ago

心动，试一下~

yuhangch

16h 5m ago

@yuhangch

OpenClacky Installation

ℹ Detected OS: Linux
ℹ Detected Linux distribution: debian
ℹ Detected shell: fish (rc file: /root/.config/fish/config.fish)

==> Network pre-flight check...

⚠ UNREACHABLE google.com
✓ OK (0.0s) baidu.com
✓ Region: china

✓ OK (0.4s) CN CDN (mise/Ruby)
✓ OK (0.1s) Aliyun (gem)
ℹ CN mirrors applied

ℹ Region: China — configuring Aliyun apt mirror
✓ apt mirror set to Aliyun
E: The repository 'https://mirrors.aliyun.com/ubuntu trixie Release' does not have a Release file.
E: The repository 'https://mirrors.aliyun.com/ubuntu trixie-updates Release' does not have a Release file.
E: The repository 'https://mirrors.aliyun.com/ubuntu trixie-backports Release' does not have a Release file.
E: The repository 'https://mirrors.aliyun.com/ubuntu trixie-security Release' does not have a Release file.

yafeilee

PRO

15h 55m ago

@yuhangch 你用的 fish 的 shell 呀厉害你用的非 Ubuntu Linux 的话，可以直接用 gem install openclacky 安装。系统默认的 ruby 版本都能支持上。特别方便。

yuhangch

15h 50m ago

@yafeilee #18 考虑国内帮换源很贴心，但异常退出，没装好源还被换了用户会不乐意吧，或者有个 input 选项让用户选感觉更好:)

yafeilee

PRO

15h 44m ago

@yuhangch Linux 确实匹配的型号不多，主要搞了主流 ubuntu 发行版，欢迎给我们 PR 来改进一下安装脚本

jacketma

15h 43m ago

针对国内用户的话，产品只需要 4 个字：CC 平替。
早年互联网企业发家的时候，一句话：对比 US 某某，就可以上市了

Ccf

15h 29m ago

不送福利么

yafeilee

PRO

15h 12m ago

@Ccf 免费开源呀，还要啥福利：）

thinkwei2012

14h 31m ago

支持开发票嘛，

yafeilee

PRO

14h 5m ago

@thinkwei2012 支持，可以加我们客服联系。先加我微信 lyfi2003 帮你对接。

ivvei

14h 2m ago via Android

楼主和一楼都是 AI 生成的文字吧。看上去还以为机器人聊天

yafeilee

PRO

13h 45m ago

隔壁挑战视频来，今天团队做了相同任务（一个商务 PPT 生成）、相同模型、在相同时间的对比，以下是结果：

OpenClacky $1.18 美元 VS GenericAgent 1.82 美元。（每次结果肯定不完全一致，但完全可以体现双方的技术特点）

非常省心的是，双方都是很快顺利完成交付。（之前测某海外 Agent 时花了极大的功夫，各种卡响应不提了）

OpenClacky：高缓存命中，轮次更少，速度快。（除首轮预热完，全部命中，花费还带有 Skills 进化一轮的费用）

GenericAgent：优秀的 Token 控制能力（只有九个工具，OpenClacky 16 个，ClaudeCode 40+），但有 3 轮缓存命中低于 50%，可能是架构设计原因，速度也不错。

全面技术参数对比： https://www.openclacky.com/benchmark/openclacky-vs-generic-agent

OpenClacky 录制视频： https://oss.1024code.com/benchmark/openclacky-vs-generic-agent/openclacky.mp4

GenericAgent 录制视频： https://oss.1024code.com/benchmark/openclacky-vs-generic-agent/generic.mp4

晚点会放出来与 Pi Agent 的对比。

yafeilee

PRO

12h 24m ago