中转站价格

先说结论

中转站的定价并不复杂，核心就一句话：官方价格 + 倍率加价。倍率越高，中转站赚得越多，但实际成本并不会比官方便宜太多——因为中转站有一个结构性缺陷：几乎无法利用 Prompt Caching。

几个关键信息：

中转站统一计费单位：默认 1 美元 = 50 万 Token（即 $0.002/1K Token），这是基准价格。
倍率 = 模型定价 / 基准价格。比如 Claude Sonnet 4.6 输入 $3/百万 Token，倍率就是 3 / 2 = 1.5。
中转站标价便宜，但隐性成本高：因为反向代理调度机制，缓存命中率极低，你付的钱里有相当一部分是「重复读取上下文」的费用。
轻度使用差别不大，日均 2-3 次短对话，中转站确实更便宜。
重度使用（长对话、高频调用），官方订阅几乎一定更划算，差价可达 2 倍以上。

如果你每天用 AI 编程超过 1 小时，建议直接开官方订阅。先试一个月，用真实账单做决策。

Token 是怎么计费的

大模型不按次收费，按量收费，计量单位叫 Token。

Token 是模型处理文本的最小单位。它不是「一个字」也不是「一个单词」，而是模型自己分词后的一小段。一般来说，1 个中文字约 1-2 个 Token，1 个英文单词约 1-2 个 Token。

官方定价公式很简单：

Cost = 输入价格 × 输入 Token + 输出价格 × 输出 Token

输入和输出单价不同。输出比输入贵得多——通常是 5 倍左右。

以 Claude Sonnet 4.6 为例：

项	价格（每百万 Token）
输入	$3
输出	$15
缓存读取	$0.30（输入价的 10%）

缓存读取价只有输入价的 10%，这个数字后面会很重要。

中转站的倍率怎么算

中转站普遍基于 OneAPI 或 NewAPI 系统，它们有一套统一的计费模型。

第一步：定基准价格

基准价格 = $0.002 / 1K Token（即 $2 / 百万 Token）

也就是 1 美元能买 50 万 Token，这是所有倍率计算的锚点。

第二步：算模型倍率

模型倍率 = 模型输入价格 / 基准价格
补全倍率 = 模型输出价格 / 模型输入价格

第三步：算实际费用

中转站费用 = 模型倍率 × (输入 Token + 输出 Token × 补全倍率)

展开推导：

= 模型倍率 × 输入 Token + 模型倍率 × 补全倍率 × 输出 Token
= (输入价格/基准价格) × 输入 Token + (输出价格/基准价格) × 输出 Token
= 官方 Cost / 基准价格

所以中转站价格和官方价格只差一个固定系数（基准价格），不是另一种算法，只是同一条公式的变形。倍率本质上就是「官方价格等比缩放后的显示方式」。

主流模型倍率速查

模型	输入（$/MTok）	输出（$/MTok）	官方模型倍率	补全倍率
Claude Opus 4.6	$5	$25	2.5	5
Claude Sonnet 4.6	$3	$15	1.5	5
Claude Haiku 4.5	$1	$5	0.5	5
GPT-5.4	$5	$22.5	2.5	4.5
GPT-5.2 / 5.3 Codex	$1.75	$14	0.875	8
Gemini 3 Pro	$4	$18	2	4.5
Gemini 3 Flash	$0.5	$3	0.25	6

中转站实际显示的倍率可能不同——很多服务商会再乘一个「分组倍率」或折扣系数来调整最终价格。但核心逻辑不变：倍率越低越便宜，补全倍率越大，输出成本越高。

被忽略的大头：Prompt Caching

算倍率只是表面。真正影响账单的是缓存。

什么是 Prompt Caching

大模型没有记忆。每次对话，它需要把之前说过的所有内容重新处理一遍。对话进行到第 10 轮，第 10 轮的输入就包含了前 9 轮的全部上下文。

Prompt Caching 的作用：如果某段内容（系统提示词、历史对话）在上一轮已经处理过，服务器可以直接读缓存，不再重新计算。

以 Claude 为例，缓存命中的 Token 只有正常输入价的 10%。

假设一次 10 轮对话，系统提示词 2000 Token，每轮新增约 900 Token：

项	无缓存	有缓存
累计输入 Token	~69,500	~69,500（但其中大部分走缓存）
输入成本	$0.209	$0.056
输出成本	$0.090	$0.090
单次对话	$0.299	$0.146

差了一倍。而且对话越长、上下文越多，差距越大。

为什么中转站几乎享受不到缓存

中转站的架构是「共享账号池 + 反向代理调度」。你每次发请求，调度器会从池子里选一个账号转发给官方 API。

问题是：缓存是绑定在具体账号上的。

你用账号 A 建立的缓存，换到账号 B 就失效了。而调度器优先考虑的是负载均衡和账号健康度，不是让你一直用同一个账号。

结果就是——每轮对话大概率被分配到不同账号，缓存命中率接近于零。

同样，每次开新窗口、新对话，如果被分配到不同账号，系统提示词也会被全价重新计算。你开 10 个窗口，系统提示词就按全价计费 10 次。

这是中转站和官方 API 之间真正的成本差距来源，不在倍率上，在缓存上。

算一笔月账

假设条件：

模型：Claude Sonnet 4.6
系统提示词：2,000 Token
每轮发送：300 Token，AI 回复：600 Token
每次对话 10 轮，每天 5 次，每月 30 天

项	中转站（无缓存）	官方直连（有缓存）
月输入成本	$15.68	$4.23
月输出成本	$13.50	$13.50
月总计	$29.18	$17.73

如果中转站打 5 折：$14.59。如果用尼区礼品卡开 Claude Pro：$20/月（约 140 元人民币），额度绰绰有余。

你用中转站打完折，和官方订阅基本持平。如果不打折，官方便宜将近一倍。

什么时候用中转站更划算

并不是所有场景都应该抛弃中转站。以下情况中转站仍然是合理选择：

适合用中转站的场景：

轻度使用：每天 2-3 次短对话，上下文不长
偶尔用一下：一周用几次，不值得开月订阅
无法直接订阅官方：没有海外支付手段
需要用多厂商模型：一个 Key 调用 Claude、GPT、Gemini，省去分别充值

适合官方订阅的场景：

每天高强度编程：Claude Code、Codex 连续用 1 小时以上
长对话、大项目：上下文经常到几万 Token
需要稳定的缓存命中率：降低边际成本
不想操心账号稳定性：官方不会跑路

几个常见误区

「中转站倍率低就更便宜」 倍率低确实便宜，但没有缓存意味着你为每一轮重复上下文付了全价。倍率打 5 折，缓存省下的可能是 8 折的差距。

「中转站 1 美元换 100 万 Token 很划算」 1 美元 100 万 Token 相当于基准价格的一半（倍率 0.5），听起来很便宜。但这是按 Token 数算的，不是按实际成本算的。如果 90% 的 Token 是重复读取上下文，实际有效 Token 只有 10%，单价就变成了 10 倍。

「官方订阅有上限，不如中转站按量灵活」 Claude Pro 的额度每 5 小时重置一次，对中等用户绰绰有余。重度用户超出部分按 API 费率计费，但走的是有缓存的官方费率，依然比中转站无缓存费率便宜。

怎么做决策

先开一个月官方订阅，不管 Pro 还是 API 直连，用满 30 天看账单
记录自己的使用模式：每天对话次数、平均对话长度、常用模型
再决定要不要切中转站，用真实数据对比，而不是凭感觉

别在不知道自己月用量的情况下选方案。大多数人高估了自己的使用频率，或者低估了中转站的隐性成本。

缩短试错周期。一个月就能得出结论的事，不要花一年。

参考

AI 模型与 API 成本 — 主流模型定价速查
API 中转站怎么选 — 主流中转站对比与选型
OneAPI 倍率讨论 — 倍率换算原始讨论

On this page