《多 Agent 系统综述：架构与协作模式》

CleanShot 2026-03-27 at 09.35.45@2x.png

structure｜1️⃣ 三级笔记、思想框架

多智能体系统（MAS） = 多个自主 AI Agent 组成的协作系统，每个 Agent 有独立的上下文窗口、工具集、指令和执行轨迹
Anthropic 的定义关键词：自主、工具循环、并行、协同
与 工作流（Workflow） 的根本区别：工作流靠预定义代码路径编排 LLM；多智能体系统中 LLM 动态决定自身执行过程和工具使用
本质洞察：Token 预算的分布式扩展
- Anthropic 发现：Token 使用量本身解释了 80% 的性能差异
- 三个因素（Token 消耗量、工具调用次数、模型选择）共同解释 95% 的性能方差
- 核心价值 = 信息压缩：子 Agent 在各自独立上下文窗口中并行探索，将最重要的 Token 压缩回馈给主 Agent
- 数据佐证：Agent 用约 4× 普通聊天的 Token，多智能体系统用约 15× 的 Token
- Claude Opus 4 + Sonnet 4 多智能体系统比单独 Opus 4 高出 90.2%
核心类比：人类社会的指数级能力增长不是来自个体智力提升，而是来自集体智能和协调能力
- Kimi Kong 的判断：在单 Agent 达到爱因斯坦级智商前，多 Agent 表现必然更优（多样视角）；但超人类级别单 Agent 出现后，最终可能回归单 Agent

编排者-工人模式（Orchestrator-Worker） — 当前最主流
- 一个主导 Agent 负责协调，将任务分派给多个并行子 Agent
- 流程：用户查询 → 主 Agent 分析制定策略 → 生成子 Agent → 子 Agent 并行搜索 → 压缩结果返回 → 主 Agent 整合
- 代表：Anthropic Research 系统
主-克隆模式（Master-Clone） — 更简洁的路线
- Claude Code 的选择：单主循环 + 自我克隆为子 Agent
- 每个子 Agent 没有生成更多子 Agent 的能力（最大一级分支）
- 关键上下文放在 CLAUDE.md，让主 Agent 自行管理编排
- 比 Lead-Specialist 模式更不脆弱
Tw93 的两种工作模式区分
- 指挥者模式（同步协作）：人与单个 Agent 紧密互动，session 结束后 context 丢失
- 统筹者模式（异步委派）：人只在起点和终点出现，中间多个 Agent 并行工作，产出变成可持久化工件（分支、PR）
- 多智能体的价值在统筹者模式中体现——把人的持续参与变成对工件的最终审核
三智能体长时系统（Three-Agent Architecture）
- Anthropic 最新设计：Planner → Generator → Evaluator
- 受 GAN 启发——生成器和评估器形成对抗性反馈循环
Praktika 教育多智能体系统
- Lesson Agent（GPT-5.2 实时教学） + Student Progress Agent（后台跟踪） + Learning Planning Agent（GPT-5 Pro 长期路径）
- 三个 Agent 形成连续反馈循环

核心问题：自然语言对齐很快会出问题——模型记不稳谁承诺了什么、谁在等谁
结构化协议是必须的：
- JSONL inbox 协议（消息队列分派任务）
- Worktree 隔离（每个子 Agent 文件修改互相隔离）
- 任务图（Task Graph）管理依赖关系
构建顺序不能反：协议先定 → 隔离先做 → 再谈协作和并行
Google A2A 协议：让不同厂商的 Agent 也能协作，基于 HTTP/SSE/JSON-RPC 标准，50+ 合作伙伴
幻觉放大问题：Agent A 先带偏 → B 强化 → C 叠加 → 全部收敛到高置信度的错误结论
- 解决方案：交叉验证——让某个 Agent 独立判断，不顺着前面结论走
- 建议顺序：可持久化任务图 → 有身份的队友 → 结构化通信协议 → 交叉验证/外部反馈

适合多智能体的场景：
- 高价值的广度优先查询（同时探索多个独立方向）
- 需要大量并行处理的任务
- 信息量超出单一上下文窗口的任务（子 Agent 充当信息压缩器）
- 需要与大量复杂工具交互的任务
- 具体领域：深度研究、法律文档审查、客户服务流水线、软件工程、金融交易分析
不适合的场景：
- 需要所有 Agent 共享同一上下文的任务
- Agent 之间有大量依赖关系的任务（如大多数编程任务可并行化部分较少）
- 简单的单步任务（过度工程化反而增加复杂性）
- 需要紧密衔接的写作任务（研究比写作更容易并行化）
重要的反对声音：
- Claude Code 作者 vivek："我高度怀疑你的应用需要一个多智能体系统"——每增加一层抽象都让系统更难调试，可调试性 >>> 复杂的多智能体拼凑
- Cognition 团队不推荐：Token 消耗过高、子 Agent 规划需精心设计、协调难题
- GPT-5.2 的 mega-agent 路线：将脆弱的多智能体系统坍缩为单个带 20+ 工具的 mega-agent，速度更快、更智能、维护容易 100 倍
- Anthropic 自己也承认：单一通用编码 Agent 是否最优，目前没有定论

Anthropic 的早期失败模式：
- 为简单查询生成 50 个子 Agent
- 无休止地搜索不存在的来源
- 子 Agent 之间过度更新导致互相干扰
核心工程原则：
- "像你的 Agent 一样思考"——构建模拟环境，观察逐步工作，理解失败模式
- 教编排者如何委派：明确目标、输出格式、工具指导、任务边界
- 按查询复杂度缩放努力：简单查找 1 个 Agent + 3-10 次工具调用，复杂研究 10+ 个子 Agent
- 工具测试 Agent：专门测试 MCP 工具的 Agent，使后续 Agent 任务完成时间减少 40%
部署实践：Rainbow 部署（渐进式切换）、人类评估不可或缺
Agentic Engineering 八个层级（Level 7-8）：
- Level 7（Hub-and-Spoke）：一个编排者分派给多个工人 — 当前应投入精力的地方
- Level 8（Peer-to-Peer）：Agent 间直接协调、认领任务、共享发现 — 目前没有人掌握
- Claude Code Agent Teams 是 Level 8 的早期实现：16 个并行 Agent 从零构建 C 编译器
多实例 vs 多 Agent（OpenClaw 实践）：
- 多实例做容灾基础，单实例内部用多 Agent 做任务细分
- 真正需要多 Agent 的场景：人格完全不同、职责明确划分、权限隔离
- 成本优化：深度思考用 Opus，跑腿用其他模型；3-5 个 Agent 就能覆盖日常需求

多智能体强化学习（ReMA）：Meta-Think 将多 Agent 引入推理过程——元思维 Agent（战略监督）+ 推理 Agent（执行子任务）
图智能体三大范式：静态协同（固定关系）→ 任务动态协同（按任务生成协作图）→ 过程动态协同（执行中实时演化）
Agent 文化与自主文明：Karpathy 的思考——LLM 之间的 Culture，为什么 LLM 不能为其他 LLM 写书？多智能体系统和独立 AI 文明是自然的下一步
NVIDIA 基础设施：BlueField-4 + Inference Context Memory Storage Platform，扩展 KV cache 容量，加速跨集群上下文共享
Agentic Web：Web 从"人与机器的桥梁"进化为"智能体之间的操作舞台"，依赖 MCP、A2A 等通信协议

何时用多 Agent：任务高度可并行化（研究 > 编码 > 写作）+ 任务价值足以覆盖 15× Token 成本
何时不用：模型能力足够强时（GPT-5.2 mega-agent 已证明）
Anthropic 的最佳总结：先用单 Agent 尝试将步骤作为 Prompt 的一部分。效果够好就不需要增加复杂性。只有单 Agent 无法可靠处理时，才拆分为多步工作流
OpenAI 能力分级：L3 Agent → L4 Innovation → L5 Organization（多智能体协同）

concepts｜2️⃣ 关键概念、概念网络

agentic reading｜3️⃣ 费曼 x3