LLM 入门

核心观点

大语言模型（LLM）就是一个"根据上文猜下文"的系统。你给它一段话，它算出最可能接在后面的话。

这听起来简单，但模型参数量大到一定程度、训练数据多到一定程度后，"猜下文"这件事就涌现出了理解、推理、翻译、编程等能力。不是模型真的有"意识"，是统计规律在足够大的规模下产生了有用的结果。

你不需要理解 Transformer 的数学原理，但你需要知道几个工作概念——它们直接影响你怎么用 AI 工具。

把 LLM 想象成一个读过整个互联网的实习生。它读过无数文档，但读的时候没有刻意去"记住"什么，只是通过预测下一个词来学习模式。

实际操作中三个概念最实用：

Token：模型处理信息的最小单位。1 个中文词大约 1-2 个 Token，1 个英文单词也是 1-2 个。你花钱买的就是 Token。每次对话，你输入的内容 + 模型的回复都按 Token 数计费。

上下文窗口：模型一次能"看到"的最大 Token 数。就像一个人的工作记忆——窗口越大，它能同时考虑的信息越多。DeepSeek V4 有 1M 上下文，约等于能一次看完三本《三体》。

训练 vs 推理：训练是"让模型读书学习"的过程，需要海量算力和数据。推理是"让模型回答一个问题"的过程，每次对话都是推理。你做产品只用推理，不需要关心训练。这个区别很重要——很多技术方案讨论会把两者混淆。

知道了 LLM 的基本原理，对你选工具和写提示词有三个直接影响：

我见过很多开发者上来就研究怎么微调模型，结果发现最需要解决的问题其实是提示词写得太模糊。先搞清楚你在哪一层遇到问题，再决定学什么。

参数量不等于能力。一个 700B 的模型如果训练数据质量差，可能不如一个精心训练的 70B 模型。我选模型时优先看：

详见模型选型了解更多模型对比细节。也可以直接看主流模型对比表快速比较各型号的指标差异。

LLM 的训练数据有截止日期，且不包含私有数据。解决这个问题有两种方式：

RAG（检索增强生成）：先从知识库检索相关文档，再让模型基于检索结果生成回答。适合知识频繁更新、需要引用来源的场景。常见方案：Pinecone、Weaviate、Chroma、pgvector。成本低，部署快。

微调（Fine-tuning）：在预训练模型基础上，用特定领域数据进一步训练。适合特定风格、格式或领域术语多的场景。成本中高，需要标注数据。

大多数独立开发者阶段用 RAG 就够了，不需要走到微调那一步。