模型对比

GPT / Claude / DeepSeek / Gemini / GLM / 千问 / 豆包 —— 一次讲清楚各模型家族的特点、价格和适用场景。

2026 年的 AI 模型市场已经不是"选哪家"的问题,而是"怎么组合"的问题。各家模型的能力差距在缩小,但差异化越来越明显——有的擅长 coding,有的擅长推理,有的单纯就是便宜。

这篇文章帮你把主流模型过一遍,给出我的真实使用感受和选型建议。

一图速览

系列提供方最佳场景价格等级主要获取方式
GPTOpenAI综合最强、Codex 编程$$$ChatGPT / API
ClaudeAnthropic代码/文本理解、Claude Code$$$claude.ai / API
DeepSeek深度求索日常编程、成本敏感$API / 开源部署
GeminiGoogle前端开发、多模态、大上下文$$AI Studio / API
GLM智谱 AI国内 Claude Code 搭配$$API
Qwen阿里开源部署、阿里云生态$API / 开源部署
Doubao字节轻量任务、语音$App / API
其他多家特定场景$~$$$见各平台

价格等级:$ = 极低(百万 token < 5 元),$$ = 中等(5-20 元),$$$ = 高(> 20 元或订阅 $20+/月)


模型深度解析

GPT(OpenAI)— 综合最强,但也是最贵的

GPT 系列仍然是目前综合能力最全面的模型家族。从 GPT-4o 到 o1/o3 推理系列,再到最新的 GPT-5.x 系列,OpenAI 在每个能力维度上都保持着一线水平。

它好在哪: GPT-5.5 的 Codex 是目前体验最好的 AI 编程环境之一。结合 Deep Research 功能,它不只是写代码的工具,还能做竞品调研、架构规划、甚至帮你写商业计划书。如果你只买一个订阅,ChatGPT Plus($20/月)是门槛最低的全能方案。

它不好的地方: 贵。API 价格在一线模型里算最高梯队。而且部分高级功能(GPT-5.5 Pro、足够的 Codex 额度)要 $100-200/月的 Pro 订阅才能畅快用。

我的建议: 如果你做复杂项目、需要 Agent 自主工作,GPT-5.5 Pro 确实强。但日常写代码,Plus 加 Codex 就够。我自己的策略是——DeepSeek V4 写日常代码,GPT-5.5 做架构和调研。详见我的 GPT-5.5 Pro 购买建议

Claude(Anthropic)— 代码理解和文本能力的天花板

Claude 系列在代码理解和长文本处理上有独特优势。Opus 模型在复杂推理和代码生成上的表现一直是一流水准,Sonnet 则是"性价比最高的 coding 模型"的常客。

它好在哪: Claude Code 是目前最强的 AI 编程 CLI 工具之一,配合 Opus 4.6 或 Sonnet 4.6,在处理复杂代码库、跨文件重构、理解遗留代码方面表现极其出色。Claude 的 200K 上下文窗口用得很实在——你真的能把整个项目塞进去分析。

它不好的地方: Opus 的 API 价格很高。官方订阅($20/月)有使用额度限制,重度用户容易触发限流。国内直连需要代理。

我的建议: 如果你做 AI 编程而且能接受海外支付,Claude Pro + Sonnet 是当前编程体验最好的组合之一。重度用户可以考虑 API 直连或搭配中转站。国内用户可以用 GLM 替代——后面会讲到。

DeepSeek(深度求索)— 性价比之王,我的日常主力

DeepSeek V4 系列把大模型的使用成本拉到了一个新低。V4 Flash 的缓存命中价格低到 0.02 元/百万 Token,这在两年前是不可想象的。

它好在哪: V4 Flash 用来做日常编程辅助、内容生成、翻译润色,体验已经很好了。V4 Pro 在复杂推理上也不虚一线模型。关键是——便宜到可以随便用,不用心疼额度。我日常开十几个对话窗口,月底一看也就几十块钱。

它不好的地方: V4 Pro 的高阶推理比 GPT-5.5 或 Opus 还是差一点。Agent 能力(自主规划、多步执行)不如 Claude 和 GPT。在高强度复杂项目上能感觉到差距。

我的建议: 如果你只能选一个模型,DeepSeek V4 Flash 应该是你的默认选项。 它能覆盖 80% 的日常需求,成本几乎可以忽略。把省下来的预算留给偶尔需要强模型的重度任务。V4 Pro 在 2.5 折优惠期间(截至 2026-05-31)很值得用。

缓存策略是 DeepSeek 的隐藏优势——高频重复上下文的场景(RAG、代码库分析),缓存命中时价格只有正常的 1/50。详见 AI 成本页面

Gemini(Google)— 前端能力和大上下文被低估了

Gemini 系列是 Google 的全力之作,2M Token 的上下文窗口是所有模型里最大的。

它好在哪: 前端页面开发是 Gemini 的隐藏强项。用 Gemini 3 Pro 写 UI 组件、做视觉探索,效果出乎意料地好。2M 上下文意味着你可以把整个项目文档甚至一本书都塞进去。多模态能力也很强,图片和视频理解是原生支持的。

它不好的地方: 编程 Agent 能力不如 Claude Code 和 Codex。中文社区的讨论度和生态不如 GPT 和 DeepSeek。Google 的产品策略变化频繁,API 稳定性偶尔让人担心。

我的建议: 如果你做前端开发、需要大上下文分析,或者用 Google 云生态,Gemini 值得认真考虑。它在中文圈的声量不如实际能力——不要因为它"讨论的人少"就忽视它。

GLM(智谱 AI)— 国内用户 Claude Code 的最佳替代

GLM-5.1 是智谱的最新旗舰,也是目前国产模型里和 Claude Code 兼容性最好的。

它好在哪: 配合 CC Switch(一个让你自由切换模型后端的工具),你可以在 Claude Code CLI 里用 GLM-5.1 替代 Claude 模型。国内网络直连,不需要代理。对于被代理和海外支付困扰的国内开发者来说,这是最现实的方案。

它不好的地方: 综合能力相比 GPT-5.5 和 Claude Opus 还有差距。API 价格不算最低(输入 6 元/百万 Token,输出 24 元/百万 Token)。如果你没有代理需求,同等价位 DeepSeek 的性价比更高。

我的建议: 国内开发者如果一定要用 Claude Code,GLM-5.1 + CC Switch 是目前最稳定的方案。不需要 Claude Code 的话,DeepSeek 是更省钱的选择。详见 CC Switch 配置指南

Qwen(阿里通义千问)— 开源生态的王牌

Qwen 系列是阿里云的大模型产品,Qwen-Max、Qwen-Plus、Qwen-Turbo 覆盖了从旗舰到轻量的全档位。但 Qwen 的真正特色不在 API,在开源

它好在哪: Qwen 的开源模型系列是社区生态最好的国产模型之一。你可以本地部署、微调、蒸馏,完全掌控。很多第三方的应用和工具都基于 Qwen 做二次开发。API 价格也较低,阿里云百炼平台集成方便。

它不好的地方: API 版本的综合能力比 DeepSeek V4 Pro 稍弱,价格优势也不明显。如果你不自己做开源部署,用 API 的话 DeepSeek 或者 GLM 可能是更好的选择。

我的建议: Qwen 的最优使用场景是"你需要一个能自己部署的模型"。如果你做 To B 项目、有数据合规要求、或者想自己 finetune 一个专用模型,Qwen 是首选。纯 API 用户,DeepSeek 更香。

Doubao(字节豆包)— 国内用户量大,极致低价

豆包大模型的特点是——低价格 + 快响应 + 庞大的国内用户基础。豆包 App 在国内 AI 助手的日活排名一直靠前。

它好在哪: 价格极低,响应速度快。豆包的语音输入和翻译体验在国内做得很好。如果你做一个面向国内消费者的 AI 产品,用豆包做底层模型可以大幅降低成本。

它不好的地方: 复杂任务能力有限。在多步推理、代码生成、深度分析方面,和 DeepSeek V4 Pro、GPT 有明显差距。不适合做高要求的编程助手。

我的建议: 豆包是"够用就好"场景的好选择。做语音产品、简单客服、内容分类等轻量任务,豆包的性价比极高。做编程和深度分析,往上选 DeepSeek 或 GPT。

其他值得关注的模型

Kimi(月之暗面): 超长上下文(号称能处理百万字)是它的招牌。适合分析大文档、做合同审查、阅读长篇小说稿。K2.6 版本表现不错,但日常编程能力一般。

Mistral: 法国团队,以小模型高效著称。如果你的产品需要在端侧运行、或者在欧洲做合规项目,Mistral 值得关注。

Llama(Meta): 开源社区生态最丰富的模型。如果你要做自部署、学术研究、或者需要完整的工具链支持,Llama 是首选。但需要一定的基础设施能力。

Yi(零一万物): 李开复创办的 01.AI 推出的开源模型。国内开源选项里,能力和 Qwen 各有千秋。


我该怎么选 — 按场景决策

我不建议看了一堆模型介绍就犯选择困难。按你的实际场景来:

场景一:AI 编程 & 写代码

  • 主力工具首选: GPT-5.5(Codex)或 Claude Sonnet/Opus(Claude Code)
  • 次选(国内网络): GLM-5.1 + CC Switch 搭配 Claude Code
  • 省钱方案: DeepSeek V4 Flash + 任何支持 OpenAI 格式的编程工具
  • 我的推荐: 预算够直接上 Claude Pro 或 ChatGPT Plus。预算有限就 DeepSeek V4 Flash,覆盖日常编程完全够用。

场景二:内容创作 & 写作

  • 长文/专业写作: Claude Sonnet/Opus(文本理解和组织能力最强)
  • 营销文案/SEO: GPT-5.5(创意发散能力好)
  • 日常润色/改写: DeepSeek V4 Flash(够用且便宜)

场景三:深度研究 & 分析

  • 首选: GPT-5.5 Pro + Deep Research(能自主查资料、生成报告)
  • 替代方案: Kimi(超长上下文,适合啃文档)
  • 省钱方案: DeepSeek V4 Pro(推理能力强,价格低很多)

场景四:多模态 & 前端

  • 首选: Gemini 3 Pro(原生多模态,前端能力强)
  • 次选: GPT-5.5(多模态支持好)

场景五:成本优先

  • 极致省钱: DeepSeek V4 Flash(缓存命中价 0.02 元/百万 Token)
  • 国内轻量: Doubao(价格低、速度快)
  • 开源自部署: Qwen 或 Llama(无调用成本,但需要服务器)

价格速览

以下为 API 调用模式下的参考价格(每百万 Token):

模型价格等级参考输入价典型月费
DeepSeek V4 Flash$¥1(缓存命中 ¥0.02)几十元
DeepSeek V4 Pro$¥3(折后)几百元
Doubao$< ¥5几十元
Qwen$¥1-5几十到几百元
GLM-5.1$$¥6几百元
Gemini 3 Flash$$~$0.5~$20
Gemini 3 Pro$$~$4~$50-100
Claude Sonnet 4.6$$$$3$20-100
GPT-5.5$$$$5-10$20-200+

价格不是唯一的成本

订阅 vs API vs 中转站各有优劣。API 灵活按量,订阅上限低但体验好。中转站看似便宜,但缓存几乎不可用,重度使用实际成本高于官方。详见 中转站价格体系拆解

我的组合推荐

以下是我自己用的方案,供参考:

  • 默认模型: DeepSeek V4 Flash — 日常 80% 的任务,便宜到不用想
  • 复杂任务: Claude Sonnet 4.6(API 直连)或 GPT-5.5 — 架构设计、深度分析
  • 编程助手: Claude Code + Sonnet — 大项目用,值得花钱
  • 轻量任务: DeepSeek V4 Flash — 翻译、润色、简单问答

核心原则

不要把鸡蛋放在一个篮子里。多个模型轮流用,比押注一个模型更划算、更可靠。DeepSeek 做主力省钱,GPT/Claude 做攻坚保质量。

下一步