LLM 入门

通俗理解大语言模型的工作原理、主流模型系列和选型建议。不用懂数学,懂比喻就行。

核心观点

大语言模型(LLM)就是一个"根据上文猜下文"的系统。你给它一段话,它算出最可能接在后面的话。

这听起来简单,但模型参数量大到一定程度、训练数据多到一定程度后,"猜下文"这件事就涌现出了理解、推理、翻译、编程等能力。不是模型真的有"意识",是统计规律在足够大的规模下产生了有用的结果。

你不需要理解 Transformer 的数学原理,但你需要知道几个工作概念——它们直接影响你怎么用 AI 工具。

LLM 怎么工作

把 LLM 想象成一个读过整个互联网的实习生。它读过无数文档,但读的时候没有刻意去"记住"什么,只是通过预测下一个词来学习模式。

实际操作中三个概念最实用:

Token:模型处理信息的最小单位。1 个中文词大约 1-2 个 Token,1 个英文单词也是 1-2 个。你花钱买的就是 Token。每次对话,你输入的内容 + 模型的回复都按 Token 数计费。

上下文窗口:模型一次能"看到"的最大 Token 数。就像一个人的工作记忆——窗口越大,它能同时考虑的信息越多。DeepSeek V4 有 1M 上下文,约等于能一次看完三本《三体》。

训练 vs 推理:训练是"让模型读书学习"的过程,需要海量算力和数据。推理是"让模型回答一个问题"的过程,每次对话都是推理。你做产品只用推理,不需要关心训练。这个区别很重要——很多技术方案讨论会把两者混淆。

所以呢——为什么你需要知道这些

知道了 LLM 的基本原理,对你选工具和写提示词有三个直接影响:

  1. 对 Token 有概念,就不会乱花钱。把整本书塞进提示词看起来很方便,但每次对话都要按 Token 付费。上下文越长,每次提问越贵。
  2. 知道上下文窗口的边界,就知道什么时候该开新对话。对话太长后,模型会"忘记"开头的信息。不是模型变笨了,是它窗口满了。
  3. 理解训练和推理的区别,就不会被营销话术忽悠。有些"私有化部署"就是简单地装个开源模型,效果可能远不如用 API 调用顶级模型。

我见过很多开发者上来就研究怎么微调模型,结果发现最需要解决的问题其实是提示词写得太模糊。先搞清楚你在哪一层遇到问题,再决定学什么。

主流模型系列

系列提供方特点
GPTOpenAI综合能力最强,生态成熟
ClaudeAnthropic长文本、代码、安全 — 我编程主力
DeepSeek深度求索性价比极高,国产首选
GeminiGoogle多模态、大上下文
GLM智谱国内合规方便
Qwen阿里开源生态丰富,可自部署

模型参数与能力的关系

参数量不等于能力。一个 700B 的模型如果训练数据质量差,可能不如一个精心训练的 70B 模型。我选模型时优先看:

  1. 实际使用评测 — 不是厂商宣传的跑分
  2. 社区口碑 — 真实开发者的使用反馈
  3. 价格 — 贵的模型不一定适合你的场景

详见 模型选型 了解更多模型对比细节。也可以直接看 主流模型对比表 快速比较各型号的指标差异。

进阶:RAG 与微调

LLM 的训练数据有截止日期,且不包含私有数据。解决这个问题有两种方式:

RAG(检索增强生成):先从知识库检索相关文档,再让模型基于检索结果生成回答。适合知识频繁更新、需要引用来源的场景。常见方案:Pinecone、Weaviate、Chroma、pgvector。成本低,部署快。

微调(Fine-tuning):在预训练模型基础上,用特定领域数据进一步训练。适合特定风格、格式或领域术语多的场景。成本中高,需要标注数据。

方案适合场景成本
RAG知识频繁更新、需要引用来源
微调特定风格/格式、领域术语多中高
两者结合复杂企业场景

大多数独立开发者阶段用 RAG 就够了,不需要走到微调那一步。

下一步