最近在 V2 和 LinuxDo 看到不少人吐槽:中转站价格明明便宜,但余额消耗速度比官方还快。
有人说"自己什么都没做,上下文就已经用了 25K",有人说"扣费扣得有点快,但看日志每次请求又正常"。
今天算一笔账,看看钱到底花在哪了。
大模型每次对话都要重新读一遍完整历史。就像翻译文件,每次都要从头读一遍之前的内容。
Prompt Caching 就是把读过的内容缓存起来,下次直接用。**缓存命中的部分,价格降低 90%**。
Prompt Caching 价格表:
| 操作类型 | 价格倍率 | 说明 |
|---|---|---|
| 正常输入 | 1x | 基础价格 |
| 缓存创建( 5 分钟) | 1.25x | 首次建立缓存 |
| 缓存创建( 1 小时) | 2x | 长期缓存 |
| 缓存读取 | 0.1x | 便宜 90% |
核心原理:缓存命中的部分,成本只有原来的 10%(节省 90%)。
举个例子:
假设你和 Claude 聊了很久,对话历史有 50K tokens 。
官方渠道(有缓存):
中转站(无缓存):
算一笔账( 10 次对话):
| 场景 | 首次成本 | 后续 9 次成本 | 总成本 |
|---|---|---|---|
| 官方(有缓存) | 100 | 9 × 28 = 252 | 352 |
| 中转站(无缓存但便宜 70%) | 30 | 9 × 30 = 270 | 300 |
看起来中转站便宜?但如果对话次数更多:
算一笔账( 100 次对话):
| 场景 | 首次成本 | 后续 99 次成本 | 总成本 |
|---|---|---|---|
| 官方(有缓存) | 100 | 99 × 28 = 2772 | 2872 |
| 中转站(无缓存但便宜 70%) | 30 | 99 × 30 = 2970 | 3000 |
结论:对话次数越多,官方越划算。
原因一:逆向渠道本身不支持缓存
Kiro 、Cursor 、Windsurf 等客户端的逆向接口,本身就不支持 Prompt Caching 。中转站即使想提供也做不到。
原因二:号池轮询导致缓存失效
中转站用号池轮询分配请求:
结果就是:缓存创建多,但命中的少。
原因三:虚标缓存率
有些中转站声称有缓存,实际是站长写死的假数据(比如写死 80%~88%)。
实际情况:缓存率差 10%,长期成本可能更高。
有人测试发现:
/context 显示正常/context 显示已经用了 25K问客服,客服说"就是官网,不可能是假的",然后就不解释了。
原因一:反代客户端自带的提示词
逆向 Kiro 、Cursor 等客户端的接口,这些客户端有自己的系统提示词(专为代码场景优化)。你的请求会被自动注入这些提示词。你看不到,但它在消耗你的 tokens 。
原因二:中转站自己注入的提示词
有些中转站为了"优化"体验,会注入自己的提示词。这些提示词每次对话都要计算,而且无法缓存。
原因三:多层代理叠加
中转站 A 从中转站 B 拿货,中转站 B 又从中转站 C 拿货。每一层都可能注入自己的提示词。最终到你手上,上下文已经被塞满了。
方法:用 /context 命令对比
/context,记录基础消耗/context,记录基础消耗判断标准:
注意:即使是官方账号,新建对话后也会有系统提示和工具的基础消耗,不会是 0
中转站经常不可用,很多人需要准备多个备用中转站。甚至有人问"怎么快速切换,不用每次都复制 url 和 api-key"——切换频繁到需要专门的工具。
每次切换,缓存全部丢失
举个例子:
你在服务商 A 上聊了很久,已经建立了缓存。现在每次对话成本很低(假设 100 元)。
突然服务商 A 挂了,你切换到服务商 B:
如果一天切换 3 次:
切换 + 无缓存 = 双重打击:
有些中转站存在扣费 bug:
便宜的套餐往往有日度预算限制,比如 11.90$ 的套餐每天只有 25$ 额度,根本不够用。超出部分按量计费,可能比官方还贵。
贵的套餐又用不完,不用就等于亏了。
有些低价分组很不稳定,不是 api timeout 就是 filter 。timeout 后重试,每次重试都要重新计费。不稳定导致的重试成本,可能比正常使用还高。
原则一:问清楚缓存率
原则二:测试上下文消耗
/context 检查原则三:算清楚长期成本
| 维度 | 官方渠道 | 中转站 |
|---|---|---|
| 月费 | $20 ( Claude Pro ) | 看起来便宜 |
| 缓存率 | 80%~85% | 0%~40% |
| 稳定性 | 高 | 差,需要频繁切换 |
| 长期成本 | 约 28% | 40%~60% |
| 隐藏提示词 | 无 | 可能有 |
| 扣费透明度 | 高 | 可能有 bug |
结论:短期看中转站便宜,长期看官方更划算。
| 场景类型 | 是否适合 | 原因 |
|---|---|---|
| 短对话 | ✅ 适合 | 上下文少,缓存影响小 |
| 临时使用 | ✅ 适合 | 不需要长期稳定 |
| 预算极度有限 | ✅ 适合 | 愿意接受不稳定 |
| 长对话 | ❌ 不适合 | 上下文多,缓存影响大 |
| 重度使用 | ❌ 不适合 | 每天高频使用,成本累积 |
| 对稳定性有要求 | ❌ 不适合 | 不能接受频繁切换 |
最后建议:问清楚缓存率、测试上下文消耗、算清楚长期成本。别让"便宜"蒙蔽了双眼,最后发现钱花得比官方还多。
数据来源:基于官方以及参考真实用户使用信息,仅供参考
1
v2exgo 11 小时 10 分钟前
你这里没有计算,封号、找信用卡、找卡台,切换虚拟卡,重新注册等一堆的时间成本。实际上用中转站,把高度机密的令牌跟密码保护好,只提交屎山代码,基本上是国内最佳的选择了
你有时间折腾那些防封,搞信用卡什么的 咱另说 |
2
HFX3389 10 小时 56 分钟前 `Kiro 、Cursor 、Windsurf 等客户端的逆向接口,本身就不支持 Prompt Caching 。中转站即使想提供也做不到。`
其实很早就能做到 Prompt Caching 了...现在的中转站缓存率就算是逆向的也能做到跟官方一样的缓存率了,你这 40%缓存率的知识库已经 out 了 `号池轮询导致缓存失效` 其实很早就能做到粘性会话了...最多就是本来访问账号 A 的但是账号 A 用满了切到账号 B 所以要重建一次缓存 `隐藏提示词`和`扣费透明度`倒是真的存在,还有各种倍率乱标的。 用中转站还是得找主动把渠道和有无缓存标出来中转站,不标的站还是让它自生自灭吧 重度使用能开官方的还是开官方的套餐最好,不仅体验一流,用多一些额度算下会比充中转站更划算 |
5
NO9527 10 小时 46 分钟前 都是中转站了,干出什么垃圾事都符合想象
|
6
lekai63 10 小时 46 分钟前
官方 claude code 缓存免费。
中转站 0.1x 你一次请求里,可能 70%-80%的内容都是 cache 。 中转站吃这 0.1x 也不差 |
7
scf2024 OP @v2exgo 你说得对。写这篇是因为我自己之前也用过中转站,但是发现余额消耗特别快,研究后发现是缓存率的问题。主要是是提醒大家如果一定要选中转站要看下缓存率。
|
8
HFX3389 10 小时 30 分钟前
@miniliuke #4 还是有那么一些的,毕竟有这么条:
第二十一条 提供者违反本办法规定的,由有关主管部门依照《中华人民共和国网络安全法》、《中华人民共和国数据安全法》、《中华人民共和国个人信息保护法》、《中华人民共和国科学技术进步法》等法律、行政法规的规定予以处罚;法律、行政法规没有规定的,由有关主管部门依据职责予以警告、通报批评,责令限期改正;拒不改正或者情节严重的,责令暂停提供相关服务。 构成违反治安管理行为的,依法给予治安管理处罚;构成犯罪的,依法追究刑事责任。 |
9
HFX3389 10 小时 24 分钟前
@scf2024 #7 只是缓存率吗,不是中转站给你调了倍率你没发现吧?正常 opus ,分组倍率为 1 时,input/output 价格应该是$5/$25 哦,去使用记录看看你的倍率是不是正常的吧,相信你或许会有新的发现
|
10
TsubasaHanekaw 9 小时 18 分钟前
想不折腾用 claude , 那国内最好的就是直接自己逆向 github copilot 的订阅 。
|
11
foufoufm 9 小时 14 分钟前 我自己也测试是使用了中转,结论确实不如官方, 又慢效果又差,还很贵。一个问题十几刀就没了
|
13
shenguna 5 小时 50 分钟前
自己部署和本地模型,qwen3 coder 80ba3b ,8bit ,80G 模型,用一台 macbook 128g 内存可以跑,每秒 45tokens ,虽然弱智,但无限量烧 tokens
|
14
gotoschool 5 小时 46 分钟前
实际上 就比如咱留言中开中转站的,自己对接个上游 就说自己是中转站一手资源 纯粹的。
|
16
love2328 4 小时 3 分钟前
中转还是自己搭个好,预防换脑
|