
structure|1️⃣ 三级笔记、思想框架
原文来源:《Claude managed agents 解读》
howie 标注版:Lance Martin (@rlancemartin) 的 X 长线程 — Launching Claude Managed Agents
Claude Managed Agents 是 Anthropic 推出的托管式 agent 基础设施——你只需定义 agent 配置(模型、工具、技能),harness 和运行环境由平台托管,目标是让 agent 跟上 Claude 快速增长的智能水平,并支持越来越长的任务周期。
claude-api skill,在 Claude Code 中开箱即用整篇文章的核心论点可以概括为一个递进逻辑链:
concepts|2️⃣ 关键概念、概念网络
context:
Claude Managed Agents is a pre-built, configurable agent harness that runs in managed infrastructure. You define an agent as a template – tools, skills, files / repos, etc. The agent harness and the infrastructure are provided for you.
费曼一下:这是 Anthropic 推出的一套「拎包入住」的 agent 服务。开发者不再需要自己搭建 agent 的运行环境和编排逻辑,只需定义「agent 是什么」(配置),平台负责「怎么跑」(基础设施)。类似从自建服务器到使用云服务的跳跃。
context:
Agents built on the messages API use a harness to route Claude’s tool calls to handlers and manage context. [...] agent harnesses encode assumptions about what Claude can’t do. These assumptions grow stale as Claude gets more capable and can bottleneck Claude’s performance.
费曼一下:harness 就是包裹在模型外层的「调度器」,负责把模型的工具调用转发给具体处理器、管理上下文窗口。问题在于:harness 里硬编码了「模型做不到什么」的假设,而模型在快速变强,假设很快就会过时。这是整篇文章的核心矛盾。
context:
Agent — A versioned config that houses the agent’s identity: model, system prompt, tools, skills, MCP servers, etc. Environment — A template describing how to provision the sandbox. Session — A stateful run using the pre-created agent config and environment.
费曼一下:这是 Managed Agents 的三个核心抽象。Agent 是「图纸」(定义了 agent 是谁),Environment 是「工厂模板」(定义了执行环境怎么配),Session 是「一次具体的生产运行」。一个 agent 可以启动无数次 session,每次都是全新的执行实例。
context:
We decouple what we thought of as the “brain” (Claude and its harness) from both the “hands” (sandboxes and tools that perform actions) and the “session” (the log of session events). Each became an interface that made few assumptions about the others, and each could fail or be replaced independently.
费曼一下:这是 Managed Agents 的架构设计哲学。不把 agent 当作一个整体来设计,而是拆成三个独立接口:大脑(推理)、双手(执行)、日志(记录)。每一层可以独立失败、独立替换、独立演化。这样当模型升级时,只需替换 brain 层,不影响其他两层。
context:
Claude’s task horizon is growing exponentially, already exceeding over 10 human-hours of work on the METR benchmark. [...] we expect future Claude to run over days, weeks, or months on humanity’s greatest challenges.
费曼一下:指 agent 一次任务能持续多长时间。这是推动 Managed Agents 诞生的关键变量——当 agent 从“秒级”进化到“小时级”再到“天级”,基础设施的容错、安全、扩展需求就完全不同了。METR 基准已经显示超过 10 人小时,未来目标是天、周甚至月。
agentic reading|3️⃣ 费曼 x3