AI Agent

Agent 与普通对话的区别、核心能力(工具调用/规划/记忆)、何时该用 Agent 而非简单提示词。

核心观点

AI Agent 就是"能给 AI 配上工具的对话"。普通 AI 对话只能聊天,Agent 能调用代码、查数据库、发请求、操作文件,自主完成多步任务。

Agent 不是科幻。它就是一个循环:观察现状 → 用推理决定做什么 → 调用工具执行 → 观察结果 → 继续循环直到任务完成。

Agent vs 普通对话

普通对话Agent
能力范围文本生成文本生成 + 工具调用
执行流程一问一答自主循环:思考→行动→观察
状态管理靠对话历史有明确的内存和规划
任务规模单轮/简短多轮多步复杂任务
需要你做什么手动拆分任务给目标,AI 自主执行

两者的分界线不是技术上的,是信任度上的。你依赖 AI 越多,越接近 Agent。

Agent 的三大核心能力

1. 工具调用 (Tool Use)

Agent 可以调用外部工具:执行代码、搜索数据库、调用 API、读写文件、发邮件。工具是 Agent 的"手脚"——AI 模型负责决策,工具负责执行。

Claude Code 就是 Agent 模式的典型例子。你给它一个任务,它自己决定先读哪些文件、改什么代码、运行什么命令来验证。

2. 规划能力

Agent 不是一次执行一步,它能拆解任务、安排顺序、调整计划。

简单规划:先读文件,再改代码,最后跑测试。复杂规划:根据前一步的结果决定下一步的方向。

3. 记忆

  • 短期记忆:当前任务的上下文
  • 长期记忆:跨会话的关键信息和决策记录

记忆是 Agent 和普通对话的关键区别。普通对话的记忆全靠你人工维持。Agent 可以自主把重要信息存起来,后续任务直接取用。

常见框架

几个主流的 Agent 框架,按复杂程度排序:

框架特点适合场景
Anthropic 的 Workflow/Agent框架最轻,直接通过 API 构建自定义程度高的场景
LangChain / LangGraph生态最大,组件丰富复杂编排、多 Agent 协作
CrewAI多 Agent 角色扮演,简洁 API需要多个角色协作的任务
AutoGen微软出品,多 Agent 对话研究实验、多人模拟

但我个人的建议是:别一开始就上框架。先用最简单的方式——比如 Claude Code 或 OpenAI 的 Function Calling——跑通一个 Agent 流程。等确认这个模式能解决你的问题,再考虑用框架来工程化。

我见过太多人花两周学 LangChain,最后做出来的东西不如直接写几个 API 调用。记住你的目标是解决问题,不是用框架。

什么时候用 Agent vs 简单提示

用 Agent 的场景:

  • 需要操作文件或数据库
  • 任务需要多步推理,且中间结果影响后续步骤
  • 需要在多个工具间切换
  • 想让 AI 自主完成整个工作流(如 CI/CD、数据清洗)

用简单提示的场景:

  • 一次性文字生成(文案、翻译、摘要)
  • 需要精确控制输出格式
  • 快速问答
  • AI 不需要接触外部系统

一条经验法则:如果一个任务你能用 3 步以内自己完成,就不需要 Agent。Agent 的复杂度只有在任务足够复杂时才有价值。

下一步