
structure|1️⃣ 三级笔记、思想框架
核心论点
- GTC 2026 现场圆桌,四位嘉宾(张璐、Mark Ren、肖志斌、Alex)拆解英伟达万亿目标背后的需求爆发与供给瓶颈这对核心矛盾
- 英伟达正从 GPU 公司转型为 AI 基础设施公司,构建全栈式护城河;但供应链、电力、封装产能等物理约束才是决定万亿目标能否落地的关键变量
- 推理正在取代训练成为算力消耗的主战场,Agent 大规模部署将进一步放大这一趋势
一、四个关键数字:GTC 2026 的核心发布
- 1 万亿美元:Blackwell + Vera Rubin 两个平台到 2027 年底累计订单目标,去年还是 5000 亿
- 2024 年全球半导体产业总销售额才 6000 多亿,NVIDIA 单家要超过整个行业
- AMD CEO Lisa Su 去年预测整个数据中心 AI 加速芯片到 2030 年才达 1 万亿
- 7 块新芯片:Vera Rubin 平台一次性发布 7 款芯片,全部进入量产——英伟达史上最大规模同步发布
- 10 倍:Vera Rubin NVL72 相比 Blackwell,推理效率提升 10 倍,每个 Token 成本降至十分之一
- 35 倍:Token per Watt 性能提升 35 倍
二、需求端:推理市场的结构性爆发
- 训练 vs 推理的成本比例正在逆转
- 2023 年:训练占 70-80%
- 现在:大约一半一半
- 未来 1-2 年:推理将占 70-80%
- 推理是长期现金流,训练是一次性投入
- Agent 大规模部署后,推理需求(低延迟、快速反应、实时在线、长上下文)进一步爆发
- 张璐:「如果看长期的现金流,那一定是来自于推理」
- Token 经济学正在成形:Jensen 将 AI 工厂的产出重新定义为 Token——一种新的生产力单位
三、供给端:物理世界的硬约束
- 3 纳米产能:基本跟得上,台积电在扩产
- CoWoS 先进封装:瓶颈明显,台积电产能 2024 年至今涨了 3 倍仍在疯狂扩产
- HBM4:美光和三星已宣布量产,三家(含 SK Hynix)在做 HBM4E 定制化方案
- 核心矛盾:半导体行业扩产周期无法用钱砸出来,从投产到产能落地需要 1-2 年
- 志斌:「现在角色互换了,半导体产能变成了卖方市场」
四、Groq 收购与 LPU 技术
- Groq 的技术路线:纯 SRAM 架构,完全去掉 DRAM
- SRAM:延迟 1-2 纳秒,但成本高(6 个晶体管)
- DRAM:密度大但延迟高,需动态刷新
- Groq 通过片上 SRAM 存储模型参数和 KV cache,极致互联扩展到更大集群
- 核心优势:极低延迟,特别适合 Agentic 应用
- GPU 的问题:解码器阶段逐 Token 生成,大部分时间在从内存抓取权值,不在运算
- LPU 把权值放在片上,省掉了数据通信时间
- Jensen 建议:未来所有数据中心留 25% 空间给 Groq 推理芯片
- 能耗视角:数据通信能耗未降低,斯坦福前校长 John Hennessy 预判数据通信耗电量将是计算的 10 倍以上
- 未来是异构的:GPU + LPU + 光 Switch + 各种专用芯片混合架构
五、AI for Chip Design:芯片设计的 AI 化
- 英伟达内部:100% 使用 Coding Agent,工程师效率大幅提升
- ChipNemo 项目(2023 年发布):用英伟达内部 20 多 Billion Tokens 数据训练基座模型
- 芯片设计加速的三层原因:
- 更多团队和人力
- AI 辅助(Coding Agent + AI for chip design)
- 全栈生态形成的快速反馈体系——能更高效地确定优先级
- Mark:「有了大语言模型和 Agent 技术,AI 能真正形成通用的芯片设计能力」
六、OpenClaw 与 Token 经济学
- OpenClaw 带来 1000 倍 Token 使用量提升
- 目前中国在 OpenClaw("龙虾")上的部署速度快于美国
- 志斌的公司在做 Token Simulator + Auto Optimize,即将开源
- Mark:OpenClaw 利好垂域 Agent(如 Agent for Chip Design),通用工具有人做好了,垂域更容易切入
- NemoClaw 软件生态:英伟达不是想抓应用层收入,而是要在 Agent 部署层面确立规则制定者地位
七、SaaS 的商业模式变革
- Jensen 提出 Agent as a Service 概念
- 张璐的三阶段论:基础技术创新 → 技术应用创新 → 商业模式创新
- 传统 SaaS 卖标准化软件 → Agent 卖高度定制化的 AI 劳动力
- 预算从 IT 预算变为劳动力预算(更大的市场)
- 但对 AI Agent 的能力要求也更高:需做到岗位 90% 以上工作,超过 90% 的人
- 未来公司架构:核心团队 20-30 人 + 大量 AI Agent 外包(HR、财务等职能)
- Jensen 说的新招聘模式:年薪 + Token 额度(管理多少 Agent 实习生)
八、竞争格局:谁能挑战英伟达?
- Google TPU:
- Google 做系统和互联的能力实际上超过 NVIDIA
- 内部全栈优化下训练成本可能只有 ChatGPT 的 1/3
- 但外部客户用 TPU 做不到同等低成本
- 英伟达的核心护城河:
- 快速执行力(一年发 7 款芯片)
- 供应链把控力(与台积电的信任关系,CoWoS 产能大部分在手)
- CUDA 生态系统 + 开发者社区
- 全栈 AI 基础设施定位
- 潜在挑战方向:
- 边缘端 / 私有化部署(高通 NPU、苹果芯片)
- 物理 AI / 机器人芯片(入口级机会)
- CPU 上运行的新模型架构
- 市值压力导致的短期 vs 长期资源分配博弈
- CUDA 护城河是否被 Coding Agent 削弱?
- 内核级优化:AI 已能达到手动优化 90% 水平,壁垒在减弱
- 但系统级的硬件知识、数据 know-how 是 Coding Agent 暂时没有的
- 更重要的是 CUDA 已不再是唯一护城河,全栈生态才是
九、数据中心基础设施:建设的速度之战
- 电力是最大瓶颈:美国不缺高压输电,缺的是配电(降压到可用电)
- 监管法规限制变电站建设
- 90% 新数据中心采用 behind the meter(自己发电),天然气机组直接部署
- 建设模式革命:
- 从传统钢筋水泥 → 集装箱模块化方案(预装机架、CDU、光纤、UPS)
- 交付周期:从 18-20 个月压缩到 6-9 个月
concepts|2️⃣ 关键概念、概念网络
agentic reading|3️⃣ 费曼 x3