AI Agent
Agent 与普通对话的区别、核心能力(工具调用/规划/记忆)、何时该用 Agent 而非简单提示词。
核心观点
AI Agent 就是"能给 AI 配上工具的对话"。普通 AI 对话只能聊天,Agent 能调用代码、查数据库、发请求、操作文件,自主完成多步任务。
Agent 不是科幻。它就是一个循环:观察现状 → 用推理决定做什么 → 调用工具执行 → 观察结果 → 继续循环直到任务完成。
Agent vs 普通对话
| 普通对话 | Agent | |
|---|---|---|
| 能力范围 | 文本生成 | 文本生成 + 工具调用 |
| 执行流程 | 一问一答 | 自主循环:思考→行动→观察 |
| 状态管理 | 靠对话历史 | 有明确的内存和规划 |
| 任务规模 | 单轮/简短多轮 | 多步复杂任务 |
| 需要你做什么 | 手动拆分任务 | 给目标,AI 自主执行 |
两者的分界线不是技术上的,是信任度上的。你依赖 AI 越多,越接近 Agent。
Agent 的三大核心能力
1. 工具调用 (Tool Use)
Agent 可以调用外部工具:执行代码、搜索数据库、调用 API、读写文件、发邮件。工具是 Agent 的"手脚"——AI 模型负责决策,工具负责执行。
Claude Code 就是 Agent 模式的典型例子。你给它一个任务,它自己决定先读哪些文件、改什么代码、运行什么命令来验证。
2. 规划能力
Agent 不是一次执行一步,它能拆解任务、安排顺序、调整计划。
简单规划:先读文件,再改代码,最后跑测试。复杂规划:根据前一步的结果决定下一步的方向。
3. 记忆
- 短期记忆:当前任务的上下文
- 长期记忆:跨会话的关键信息和决策记录
记忆是 Agent 和普通对话的关键区别。普通对话的记忆全靠你人工维持。Agent 可以自主把重要信息存起来,后续任务直接取用。
常见框架
几个主流的 Agent 框架,按复杂程度排序:
| 框架 | 特点 | 适合场景 |
|---|---|---|
| Anthropic 的 Workflow/Agent | 框架最轻,直接通过 API 构建 | 自定义程度高的场景 |
| LangChain / LangGraph | 生态最大,组件丰富 | 复杂编排、多 Agent 协作 |
| CrewAI | 多 Agent 角色扮演,简洁 API | 需要多个角色协作的任务 |
| AutoGen | 微软出品,多 Agent 对话 | 研究实验、多人模拟 |
但我个人的建议是:别一开始就上框架。先用最简单的方式——比如 Claude Code 或 OpenAI 的 Function Calling——跑通一个 Agent 流程。等确认这个模式能解决你的问题,再考虑用框架来工程化。
我见过太多人花两周学 LangChain,最后做出来的东西不如直接写几个 API 调用。记住你的目标是解决问题,不是用框架。
什么时候用 Agent vs 简单提示
用 Agent 的场景:
- 需要操作文件或数据库
- 任务需要多步推理,且中间结果影响后续步骤
- 需要在多个工具间切换
- 想让 AI 自主完成整个工作流(如 CI/CD、数据清洗)
用简单提示的场景:
- 一次性文字生成(文案、翻译、摘要)
- 需要精确控制输出格式
- 快速问答
- AI 不需要接触外部系统
一条经验法则:如果一个任务你能用 3 步以内自己完成,就不需要 Agent。Agent 的复杂度只有在任务足够复杂时才有价值。
下一步
- MCP 协议 — Agent 调用工具的标准接口
- Claude Code 高级用法 — 实际使用 Agent 编程