structure｜1️⃣ 三级笔记、思想框架

《Agentic AI Changes the CPU/GPU Equation》三级笔记

核心观点

AMD 的核心判断是：agentic AI 改变的不是单台 GPU 服务器里 CPU 数量的微调，而是整个 AI 数据中心架构的重分配。chatbot AI 主要是“提示词进入模型、模型返回答案”，因此天然推高 GPU-heavy rack；agentic AI 则要持续规划、调用工具、查数据库、跑应用、做权限检查、取回记忆、验证输出，并不断循环，因此会把大量生产负载转移到 CPU 密集型环节。

作者据此认为，企业不能再用“给 GPU 服务器多塞几个 CPU”的方式规划下一代 AI 基础设施，而要新增一个专门的 agentic CPU compute layer，与 GPU racks、网络、软件栈一起构成平衡的分布式系统。

一、问题从一个常见误解开始：CPU/GPU 比例变化不等于多加 CPU

1.1 基础设施会议里的直觉判断

许多基础设施规划者已经意识到：agentic AI 会改变 CPU-to-GPU ratio。
他们的直觉推论是：既然 CPU 比例会上升，那只要给 GPU servers 增加更多 CPU 即可。
作者认为这个判断“听起来合理”，但正是很多人理解错误的地方。

1.2 AMD 给出的更大判断

agentic AI 不是在既有 GPU-heavy rack design 旁边加一点 CPU。
它是 data center architecture 的结构性变化。
新需求不是“更多 CPU 插进 GPU box”，而是“entirely new racks of CPU servers”与 GPU infrastructure 并列运行。
这些 CPU racks 的任务，是支撑大量 agents 的 orchestration、tool execution、data processing、policy checks 等工作。

1.3 市场规模判断也随之变化

AMD 过去曾预计 server CPU market 每年增长 18%。
由于 agents 带来结构性 compute requirements，AMD 现在预期 server CPUs 的 total addressable market 年增长率将超过 35%。
AMD 给出的 2030 年目标市场规模判断是超过 1200 亿美元。
这组数字服务于文章的中心论点：agentic AI 不是短期服务器配置变化，而是足以重写 CPU 市场曲线的基础设施范式变化。

二、第一波 chatbot AI：主要是模型响应，因此天然 GPU-centric

2.1 chatbot AI 的工作流很简单

用户提出问题。
应用把 prompt 发给 model。
model 生成 response。
应用把 response 返回给用户。
这个模式可以概括为 prompt-in / answer-out。

2.2 这种模式推导出 GPU-centric design

chatbot AI 的核心计算压力集中在 model inference。
GPU 负责 heavy math。
CPU 在这种部署里更像 head node。
一个 head node CPU 通常服务 4 到 8 块 GPU，负责 scheduling、I/O 和 system management。

2.3 旧比例背后的真实含义

1 CPU : 4-8 GPUs 不是一条永恒的硬件定律，而是 chatbot workload 的产物。
当 workload 主要是模型响应时，GPU 是瓶颈与价值中心。
CPU 的角色相对集中：调度、输入输出、系统管理。
因此，旧架构可以把 CPU 视为 GPU server 的辅助控制层。

三、agentic AI 不是“chat plus tools”：它改变了 workload 的形状

3.1 agentic AI 的任务不再是回答一个 prompt

agent 接到的是 goal，而不只是 question。
它会把目标拆成步骤。
它会决定下一步做什么。
它会调用多个 models。
它会查询 databases、连接 APIs、运行 enterprise applications。
它会检查 permissions、检索 memory、验证 output，然后继续 loop back。

3.2 这形成了完全不同的 infrastructure profile

GPU 仍然对 model execution 至关重要。
但生产环境里的 agent workload 已经变成 CPU-intensive。
模型执行只是 agent 系统的一部分，不再覆盖整个计算链条。
agentic AI 的成本、延迟、吞吐和可靠性，会被 orchestration、data path、tool calls、security checks 和 concurrency 共同决定。

3.3 CPU 在 agentic AI 中承担三类关键责任

Orchestration：管理把复杂任务拆解为可执行步骤的 engine。
Agent Execution and Tool Calls：触发 APIs 和 legacy enterprise software。
Policy and Security：对每个 autonomous action 运行现实世界的检查。
这些责任不是 GPU-heavy inference 能自然吞掉的部分，而是 agent 系统从“答案”走向“行动”后新出现的 CPU 工作面。

四、CPU/GPU shift 的答案不是 add more CPUs，而是新增 CPU compute layer

4.1 比例变化：从 1:4-8 走向 1:1，甚至 CPU 侧更高

chatbot AI 常见比例是 1 CPU : 4-8 GPUs。
agentic AI 正在向 1:1 移动。
某些场景里，CPU 侧需求会高于 GPU 侧。
这个变化说明 CPU 不再只是 GPU server 的 head node，而成为 agentic production workload 的主体承载层之一。

4.2 错误做法：把更多 CPU 撒进 GPU 盒子

作者明确反对 simply sprinkling more CPUs into a box of GPUs。
这种做法仍然把 GPU box 当成中心，把 CPU 当成补丁。
但 agentic AI 的 CPU 需求来自架构层，不是局部硬件缺口。

4.3 正确形态：newly engineered CPU compute layer

下一阶段的 AI system of choice 不是单一 AI box。
它更像 distributed system。
它包含 GPU racks，用于 dense model compute。
它包含 fast networking。
它包含让系统可观测、安全、高效的软件栈。
它还包含 agentic CPU racks，用于 orchestration、processing data 和 tool execution。

五、balanced architecture 成为新瓶颈

5.1 CPU tier 不足会让 GPU 等待

如果 CPU tier undersized，GPUs wait。
这意味着昂贵 GPU 的利用率会被 CPU 侧的 orchestration 和 tool execution 限制。
在 agentic AI 中，GPU 不再天然决定整体吞吐；CPU 层可能成为系统瓶颈。

5.2 网络不是附属问题

如果 networking 是 afterthought，agents stall。
agent 要跨模型、数据库、API、企业应用和记忆系统移动。
网络延迟和吞吐会直接影响 agent loop 的速度。

5.3 data path 和 orchestration layer 决定延迟与成本

如果 data path messy，latency grows。
如果 orchestration layer 没有为 concurrency 设计，cost and complexity rise。
agentic AI 的性能来自整条执行链的平衡，而不是单个处理器峰值。

六、AMD 的位置：用 EPYC CPU 填充 agentic CPU racks

6.1 AMD 把这个变化映射到 EPYC portfolio

AMD EPYC processors 被描述为覆盖 AI pipeline 不同部分的 CPU portfolio。
高频 CPU 面向 latency-sensitive work。
dense-core CPU 面向 scale-out throughput。
AMD 把 CPU 的差异化定位与 agentic AI 的多样化负载连接起来。

6.2 roadmap 中的 Venice

作者提到 AMD 的 roadmap 包括 Venice products。
Venice 被用于进一步扩展 AI-optimized CPUs 的 portfolio。
在文章语境里，Venice 是 AMD 对“agentic CPU layer 需要专门 silicon”这个判断的产品化承接。

6.3 AMD 的总体主张

AMD 想提供 specialized silicon。
目标是让数据中心里的每个 rack、云环境里的每个 compute instance，都获得匹配自身任务的处理器。
文章把 AMD 放在“CPU 需求被重新估值”的供应方位置上，而不是只讨论抽象架构。

七、给 IT leaders 的结论：把 agentic AI 当成数字劳动力，而不是 chatbot 插件

7.1 从 pilot 到 production， sizing 逻辑要改变

concepts｜2️⃣ 关键概念、概念网络

agentic reading｜3️⃣ 费曼 x3