中转站价格
搞懂 Token 计费逻辑、倍率换算公式和缓存机制,搞清楚你花的钱到底去了哪里。
先说结论
中转站的定价并不复杂,核心就一句话:官方价格 + 倍率加价。倍率越高,中转站赚得越多,但实际成本并不会比官方便宜太多——因为中转站有一个结构性缺陷:几乎无法利用 Prompt Caching。
几个关键信息:
- 中转站统一计费单位:默认 1 美元 = 50 万 Token(即 $0.002/1K Token),这是基准价格。
- 倍率 = 模型定价 / 基准价格。比如 Claude Sonnet 4.6 输入 $3/百万 Token,倍率就是
3 / 2 = 1.5。 - 中转站标价便宜,但隐性成本高:因为反向代理调度机制,缓存命中率极低,你付的钱里有相当一部分是「重复读取上下文」的费用。
- 轻度使用差别不大,日均 2-3 次短对话,中转站确实更便宜。
- 重度使用(长对话、高频调用),官方订阅几乎一定更划算,差价可达 2 倍以上。
如果你每天用 AI 编程超过 1 小时,建议直接开官方订阅。先试一个月,用真实账单做决策。
Token 是怎么计费的
大模型不按次收费,按量收费,计量单位叫 Token。
Token 是模型处理文本的最小单位。它不是「一个字」也不是「一个单词」,而是模型自己分词后的一小段。一般来说,1 个中文字约 1-2 个 Token,1 个英文单词约 1-2 个 Token。
官方定价公式很简单:
Cost = 输入价格 × 输入 Token + 输出价格 × 输出 Token输入和输出单价不同。输出比输入贵得多——通常是 5 倍左右。
以 Claude Sonnet 4.6 为例:
| 项 | 价格(每百万 Token) |
|---|---|
| 输入 | $3 |
| 输出 | $15 |
| 缓存读取 | $0.30(输入价的 10%) |
缓存读取价只有输入价的 10%,这个数字后面会很重要。
中转站的倍率怎么算
中转站普遍基于 OneAPI 或 NewAPI 系统,它们有一套统一的计费模型。
第一步:定基准价格
基准价格 = $0.002 / 1K Token(即 $2 / 百万 Token)也就是 1 美元能买 50 万 Token,这是所有倍率计算的锚点。
第二步:算模型倍率
模型倍率 = 模型输入价格 / 基准价格
补全倍率 = 模型输出价格 / 模型输入价格第三步:算实际费用
中转站费用 = 模型倍率 × (输入 Token + 输出 Token × 补全倍率)展开推导:
= 模型倍率 × 输入 Token + 模型倍率 × 补全倍率 × 输出 Token
= (输入价格/基准价格) × 输入 Token + (输出价格/基准价格) × 输出 Token
= 官方 Cost / 基准价格所以中转站价格和官方价格只差一个固定系数(基准价格),不是另一种算法,只是同一条公式的变形。倍率本质上就是「官方价格等比缩放后的显示方式」。
主流模型倍率速查
| 模型 | 输入($/MTok) | 输出($/MTok) | 官方模型倍率 | 补全倍率 |
|---|---|---|---|---|
| Claude Opus 4.6 | $5 | $25 | 2.5 | 5 |
| Claude Sonnet 4.6 | $3 | $15 | 1.5 | 5 |
| Claude Haiku 4.5 | $1 | $5 | 0.5 | 5 |
| GPT-5.4 | $5 | $22.5 | 2.5 | 4.5 |
| GPT-5.2 / 5.3 Codex | $1.75 | $14 | 0.875 | 8 |
| Gemini 3 Pro | $4 | $18 | 2 | 4.5 |
| Gemini 3 Flash | $0.5 | $3 | 0.25 | 6 |
中转站实际显示的倍率可能不同——很多服务商会再乘一个「分组倍率」或折扣系数来调整最终价格。但核心逻辑不变:倍率越低越便宜,补全倍率越大,输出成本越高。
被忽略的大头:Prompt Caching
算倍率只是表面。真正影响账单的是缓存。
什么是 Prompt Caching
大模型没有记忆。每次对话,它需要把之前说过的所有内容重新处理一遍。对话进行到第 10 轮,第 10 轮的输入就包含了前 9 轮的全部上下文。
Prompt Caching 的作用:如果某段内容(系统提示词、历史对话)在上一轮已经处理过,服务器可以直接读缓存,不再重新计算。
以 Claude 为例,缓存命中的 Token 只有正常输入价的 10%。
假设一次 10 轮对话,系统提示词 2000 Token,每轮新增约 900 Token:
| 项 | 无缓存 | 有缓存 |
|---|---|---|
| 累计输入 Token | ~69,500 | ~69,500(但其中大部分走缓存) |
| 输入成本 | $0.209 | $0.056 |
| 输出成本 | $0.090 | $0.090 |
| 单次对话 | $0.299 | $0.146 |
差了一倍。而且对话越长、上下文越多,差距越大。
为什么中转站几乎享受不到缓存
中转站的架构是「共享账号池 + 反向代理调度」。你每次发请求,调度器会从池子里选一个账号转发给官方 API。
问题是:缓存是绑定在具体账号上的。
你用账号 A 建立的缓存,换到账号 B 就失效了。而调度器优先考虑的是负载均衡和账号健康度,不是让你一直用同一个账号。
结果就是——每轮对话大概率被分配到不同账号,缓存命中率接近于零。
同样,每次开新窗口、新对话,如果被分配到不同账号,系统提示词也会被全价重新计算。你开 10 个窗口,系统提示词就按全价计费 10 次。
这是中转站和官方 API 之间真正的成本差距来源,不在倍率上,在缓存上。
算一笔月账
假设条件:
- 模型:Claude Sonnet 4.6
- 系统提示词:2,000 Token
- 每轮发送:300 Token,AI 回复:600 Token
- 每次对话 10 轮,每天 5 次,每月 30 天
| 项 | 中转站(无缓存) | 官方直连(有缓存) |
|---|---|---|
| 月输入成本 | $15.68 | $4.23 |
| 月输出成本 | $13.50 | $13.50 |
| 月总计 | $29.18 | $17.73 |
如果中转站打 5 折:$14.59。如果用尼区礼品卡开 Claude Pro:$20/月(约 140 元人民币),额度绰绰有余。
你用中转站打完折,和官方订阅基本持平。如果不打折,官方便宜将近一倍。
什么时候用中转站更划算
并不是所有场景都应该抛弃中转站。以下情况中转站仍然是合理选择:
适合用中转站的场景:
- 轻度使用:每天 2-3 次短对话,上下文不长
- 偶尔用一下:一周用几次,不值得开月订阅
- 无法直接订阅官方:没有海外支付手段
- 需要用多厂商模型:一个 Key 调用 Claude、GPT、Gemini,省去分别充值
适合官方订阅的场景:
- 每天高强度编程:Claude Code、Codex 连续用 1 小时以上
- 长对话、大项目:上下文经常到几万 Token
- 需要稳定的缓存命中率:降低边际成本
- 不想操心账号稳定性:官方不会跑路
几个常见误区
「中转站倍率低就更便宜」 倍率低确实便宜,但没有缓存意味着你为每一轮重复上下文付了全价。倍率打 5 折,缓存省下的可能是 8 折的差距。
「中转站 1 美元换 100 万 Token 很划算」 1 美元 100 万 Token 相当于基准价格的一半(倍率 0.5),听起来很便宜。但这是按 Token 数算的,不是按实际成本算的。如果 90% 的 Token 是重复读取上下文,实际有效 Token 只有 10%,单价就变成了 10 倍。
「官方订阅有上限,不如中转站按量灵活」 Claude Pro 的额度每 5 小时重置一次,对中等用户绰绰有余。重度用户超出部分按 API 费率计费,但走的是有缓存的官方费率,依然比中转站无缓存费率便宜。
怎么做决策
- 先开一个月官方订阅,不管 Pro 还是 API 直连,用满 30 天看账单
- 记录自己的使用模式:每天对话次数、平均对话长度、常用模型
- 再决定要不要切中转站,用真实数据对比,而不是凭感觉
别在不知道自己月用量的情况下选方案。大多数人高估了自己的使用频率,或者低估了中转站的隐性成本。
缩短试错周期。一个月就能得出结论的事,不要花一年。
参考
- AI 模型与 API 成本 — 主流模型定价速查
- API 中转站怎么选 — 主流中转站对比与选型
- OneAPI 倍率讨论 — 倍率换算原始讨论