
structure|1️⃣ 三级笔记、思想框架
一、核心命题:多智能体系统的本质是什么?
- 多智能体系统(MAS) = 多个自主 AI Agent 组成的协作系统,每个 Agent 有独立的上下文窗口、工具集、指令和执行轨迹
- Anthropic 的定义关键词:自主、工具循环、并行、协同
- 与 工作流(Workflow) 的根本区别:工作流靠预定义代码路径编排 LLM;多智能体系统中 LLM 动态决定自身执行过程和工具使用
- 本质洞察:Token 预算的分布式扩展
- Anthropic 发现:Token 使用量本身解释了 80% 的性能差异
- 三个因素(Token 消耗量、工具调用次数、模型选择)共同解释 95% 的性能方差
- 核心价值 = 信息压缩:子 Agent 在各自独立上下文窗口中并行探索,将最重要的 Token 压缩回馈给主 Agent
- 数据佐证:Agent 用约 4× 普通聊天的 Token,多智能体系统用约 15× 的 Token
- Claude Opus 4 + Sonnet 4 多智能体系统比单独 Opus 4 高出 90.2%
- 核心类比:人类社会的指数级能力增长不是来自个体智力提升,而是来自集体智能和协调能力
- Kimi Kong 的判断:在单 Agent 达到爱因斯坦级智商前,多 Agent 表现必然更优(多样视角);但超人类级别单 Agent 出现后,最终可能回归单 Agent
二、核心架构模式
- 编排者-工人模式(Orchestrator-Worker) — 当前最主流
- 一个主导 Agent 负责协调,将任务分派给多个并行子 Agent
- 流程:用户查询 → 主 Agent 分析制定策略 → 生成子 Agent → 子 Agent 并行搜索 → 压缩结果返回 → 主 Agent 整合
- 代表:Anthropic Research 系统
- 主-克隆模式(Master-Clone) — 更简洁的路线
- Claude Code 的选择:单主循环 + 自我克隆为子 Agent
- 每个子 Agent 没有生成更多子 Agent 的能力(最大一级分支)
- 关键上下文放在 CLAUDE.md,让主 Agent 自行管理编排
- 比 Lead-Specialist 模式更不脆弱
- Tw93 的两种工作模式区分
- 指挥者模式(同步协作):人与单个 Agent 紧密互动,session 结束后 context 丢失
- 统筹者模式(异步委派):人只在起点和终点出现,中间多个 Agent 并行工作,产出变成可持久化工件(分支、PR)
- 多智能体的价值在统筹者模式中体现——把人的持续参与变成对工件的最终审核
- 三智能体长时系统(Three-Agent Architecture)
- Anthropic 最新设计:Planner → Generator → Evaluator
- 受 GAN 启发——生成器和评估器形成对抗性反馈循环
- Praktika 教育多智能体系统
- Lesson Agent(GPT-5.2 实时教学) + Student Progress Agent(后台跟踪) + Learning Planning Agent(GPT-5 Pro 长期路径)
- 三个 Agent 形成连续反馈循环
三、协调与通信机制
- 核心问题:自然语言对齐很快会出问题——模型记不稳谁承诺了什么、谁在等谁
- 结构化协议是必须的:
- JSONL inbox 协议(消息队列分派任务)
- Worktree 隔离(每个子 Agent 文件修改互相隔离)
- 任务图(Task Graph)管理依赖关系
- 构建顺序不能反:协议先定 → 隔离先做 → 再谈协作和并行
- Google A2A 协议:让不同厂商的 Agent 也能协作,基于 HTTP/SSE/JSON-RPC 标准,50+ 合作伙伴
- 幻觉放大问题:Agent A 先带偏 → B 强化 → C 叠加 → 全部收敛到高置信度的错误结论
- 解决方案:交叉验证——让某个 Agent 独立判断,不顺着前面结论走
- 建议顺序:可持久化任务图 → 有身份的队友 → 结构化通信协议 → 交叉验证/外部反馈
四、适用场景与局限
- 适合多智能体的场景:
- 高价值的广度优先查询(同时探索多个独立方向)
- 需要大量并行处理的任务
- 信息量超出单一上下文窗口的任务(子 Agent 充当信息压缩器)
- 需要与大量复杂工具交互的任务
- 具体领域:深度研究、法律文档审查、客户服务流水线、软件工程、金融交易分析
- 不适合的场景:
- 需要所有 Agent 共享同一上下文的任务
- Agent 之间有大量依赖关系的任务(如大多数编程任务可并行化部分较少)
- 简单的单步任务(过度工程化反而增加复杂性)
- 需要紧密衔接的写作任务(研究比写作更容易并行化)
- 重要的反对声音:
- Claude Code 作者 vivek:"我高度怀疑你的应用需要一个多智能体系统"——每增加一层抽象都让系统更难调试,可调试性 >>> 复杂的多智能体拼凑
- Cognition 团队不推荐:Token 消耗过高、子 Agent 规划需精心设计、协调难题
- GPT-5.2 的 mega-agent 路线:将脆弱的多智能体系统坍缩为单个带 20+ 工具的 mega-agent,速度更快、更智能、维护容易 100 倍
- Anthropic 自己也承认:单一通用编码 Agent 是否最优,目前没有定论
五、工程实践关键教训
- Anthropic 的早期失败模式:
- 为简单查询生成 50 个子 Agent
- 无休止地搜索不存在的来源
- 子 Agent 之间过度更新导致互相干扰
- 核心工程原则:
- "像你的 Agent 一样思考"——构建模拟环境,观察逐步工作,理解失败模式
- 教编排者如何委派:明确目标、输出格式、工具指导、任务边界
- 按查询复杂度缩放努力:简单查找 1 个 Agent + 3-10 次工具调用,复杂研究 10+ 个子 Agent
- 工具测试 Agent:专门测试 MCP 工具的 Agent,使后续 Agent 任务完成时间减少 40%
- 部署实践:Rainbow 部署(渐进式切换)、人类评估不可或缺
- Agentic Engineering 八个层级(Level 7-8):
- Level 7(Hub-and-Spoke):一个编排者分派给多个工人 — 当前应投入精力的地方
- Level 8(Peer-to-Peer):Agent 间直接协调、认领任务、共享发现 — 目前没有人掌握
- Claude Code Agent Teams 是 Level 8 的早期实现:16 个并行 Agent 从零构建 C 编译器
- 多实例 vs 多 Agent(OpenClaw 实践):
- 多实例做容灾基础,单实例内部用多 Agent 做任务细分
- 真正需要多 Agent 的场景:人格完全不同、职责明确划分、权限隔离
- 成本优化:深度思考用 Opus,跑腿用其他模型;3-5 个 Agent 就能覆盖日常需求
六、前沿方向
- 多智能体强化学习(ReMA):Meta-Think 将多 Agent 引入推理过程——元思维 Agent(战略监督)+ 推理 Agent(执行子任务)
- 图智能体三大范式:静态协同(固定关系)→ 任务动态协同(按任务生成协作图)→ 过程动态协同(执行中实时演化)
- Agent 文化与自主文明:Karpathy 的思考——LLM 之间的 Culture,为什么 LLM 不能为其他 LLM 写书?多智能体系统和独立 AI 文明是自然的下一步
- NVIDIA 基础设施:BlueField-4 + Inference Context Memory Storage Platform,扩展 KV cache 容量,加速跨集群上下文共享
- Agentic Web:Web 从"人与机器的桥梁"进化为"智能体之间的操作舞台",依赖 MCP、A2A 等通信协议
七、实践判断框架
- 何时用多 Agent:任务高度可并行化(研究 > 编码 > 写作)+ 任务价值足以覆盖 15× Token 成本
- 何时不用:模型能力足够强时(GPT-5.2 mega-agent 已证明)
- Anthropic 的最佳总结:先用单 Agent 尝试将步骤作为 Prompt 的一部分。效果够好就不需要增加复杂性。只有单 Agent 无法可靠处理时,才拆分为多步工作流
- OpenAI 能力分级:L3 Agent → L4 Innovation → L5 Organization(多智能体协同)
concepts|2️⃣ 关键概念、概念网络
agentic reading|3️⃣ 费曼 x3