GPT-5.5 发布:OpenAI 官方博客大纲笔记

原标题:Introducing GPT-5.5 — A new class of intelligence for real work 作者:OpenAI 发布时间:2026 年 4 月 23 日文体:产品发布博客(product announcement/release post)

核心主旨

GPT-5.5 是 OpenAI "迄今最聪明、最好用"的模型,定位为"面向真实工作(real work)的新一类智能"。它的核心突破不在单点答题能力,而在能够自主承担一个完整的工作循环——规划、用工具、检查、处理歧义、持续推进,直到任务完成。

三条主线贯穿全文:

能力跃迁:在 agentic coding、computer use、knowledge work、scientific research 四大领域实现 step up,而不牺牲速度。
效率革命:同样任务用更少 tokens,以 GPT-5.4 的 per-token latency 达到更高智能水平;模型甚至被用来优化服务自身的基础设施。
安全与访问并重:配套迄今最强的安全措施,同时通过 Trusted Access 向合法防御者扩大访问。

编辑性说明(howie 视角):这是 OpenAI 官方 release post,本质是 marketing + positioning 文本。阅读时需注意它既传达真实进展,也构建竞争叙事(尤其对标 Claude Opus 4.7 和 Gemini 3.1 Pro 的 benchmark 选择方式)。大纲笔记忠实还原其内容与结构,批判性分析另作处理。

一、总览:GPT-5.5 是什么(Introduction)

1.1 产品定位:"a new class of intelligence for real work"

最聪明、最直觉好用的模型,代表"在电脑上完成工作的新方式"下一步。
关键能力短名单:
- 写代码、debug 代码
- 上网做 research
- 分析数据
- 创建 documents 和 spreadsheets
- 操作软件(operating software)
- 跨工具移动直至任务完成(moving across tools until a task is finished)
范式转变:从"小心地管理每一步"变为"把一个 messy、multi-part 的任务交给它,信任它自己规划、用工具、检查、处理歧义、持续推进"。

1.2 重点跃升领域(four domains of step-up)

Agentic coding(智能体编程)
Computer use(电脑操作)
Knowledge work(知识工作)
Early scientific research(早期科研)

共同特征:"progress depends on reasoning across context and taking action over time"——进步依赖于跨上下文的推理与跨时间的行动。

1.3 智能 × 速度的同时改善

大模型通常更聪明但更慢,GPT-5.5 在达到 GPT-5.4 的 per-token latency 的同时,性能大幅跃升。
同样 Codex 任务使用显著更少 tokens——既更能干,又更高效。

1.4 最强配套安全措施

用完整的 safety and preparedness frameworks 评估。
内外部 redteam 测试。
针对高级网络安全与生物学能力做了 targeted testing。
发布前从近 200 个可信早期合作伙伴收集真实用例反馈。

1.5 发布与可用性(首轮)

ChatGPT + Codex:GPT-5.5 向 Plus / Pro / Business / Enterprise 用户开放。
ChatGPT:GPT-5.5 Pro 向 Pro / Business / Enterprise 用户开放。
API:因 safeguard 要求更高,"很快"推出(very soon)。

1.6 核心 benchmark 概览表(与主要竞品对比)

评测	GPT-5.5	GPT-5.4	GPT-5.5 Pro	Claude Opus 4.7	Gemini 3.1 Pro
Terminal-Bench 2.0	82.7%	75.1%	-	69.4%	68.5%
Expert-SWE(内部)	73.1%	68.5%	-	-	-
GDPval(wins or ties)	84.9%	83.0%	82.3%	80.3%	67.3%
OSWorld-Verified	78.7%	75.0%	-	78.0%	-
Toolathlon	55.6%	54.6%	-	-	48.8%
BrowseComp	84.4%	82.7%	90.1%	79.3%	85.9%
FrontierMath Tier 1–3	51.7%	47.6%	52.4%	43.8%	36.9%
FrontierMath Tier 4	35.4%	27.1%	39.6%	22.9%	16.7%
CyberGym	81.8%	79.0%	-	73.1%	-

二、模型能力(Model capabilities)

2.1 宏观定位:构建 agentic AI 的全球基础设施

OpenAI 的目标:"building the global infrastructure for agentic AI",让全球的人和企业能用 AI 完成工作。
过去一年软件工程被 AI 剧烈加速;GPT-5.5 + Codex + ChatGPT 正把这种转变扩展到科研与电脑工作的更广领域。
效率维度的新说法:GPT-5.5 不只是"更聪明",而是"在解决问题的过程中更高效"——更少 tokens、更少重试,却得到更高质量输出。
外部验证:在 Artificial Analysis Coding Agent Index 上,GPT-5.5 以"竞品前沿编码模型一半的成本"提供 state-of-the-art intelligence。

2.2 Agentic coding(智能体编程)

2.2.1 Benchmark 表现

Terminal-Bench 2.0:测试复杂命令行工作流(规划、迭代、工具协调) → SOTA 82.7%
SWE-Bench Pro:真实 GitHub issue 解决 → 58.6%,单次 end-to-end 解决的任务数超过前代
Expert-SWE:内部评测,长时程编码任务,人类专家中位完成时间 20 小时 → 超过 GPT-5.4
三项评测共同特点:GPT-5.5 分数更高的同时 tokens 消耗更少

2.2.2 实际工程能力(比 benchmark 更重要)

在 Codex 中能承担 implementation、refactor、debugging、testing、validation。早期测试显示 GPT-5.5 在真实工程工作所依赖的行为上更强:

Holding context across large systems(跨大型系统保持上下文)
Reasoning through ambiguous failures(在含糊失败中推理)
Checking assumptions with tools(用工具检查假设)
Carrying changes through the surrounding codebase(把改动带到周边代码)

2.2.3 核心案例与证言

案例 1 — Artemis II 任务 3D 可视化

Prompt:用 WebGL + Vite 构建基于 NASA/JPL Horizons 真实数据的 Artemis II 任务可视化 app,含真实轨道力学与交互
结果:渲染 Orion、Moon、Sun 的真实轨迹

证言 1 — Dan Shipper(Every 创始人兼 CEO)

金句:"The first coding model I've used that has serious conceptual clarity."(我用过的第一个具有严肃概念清晰性的编码模型)
实例:他花了数天 debug 一个 post-launch 问题,后来请顶级工程师重写了部分系统。他把时钟"倒回",看 GPT-5.5 能否从同样的破碎状态产出同样的 rewrite。GPT-5.4 做不到,GPT-5.5 做到了。

证言 2 — Pietro Schirano(MagicPath CEO)

金句:"It genuinely feels like I'm working with a higher intelligence, and there's almost a sense of respect."(有一种近乎敬意的感觉)
实例:把包含几百个前端和 refactor 改动的 branch,合并到主干也已大改的 main branch,20 分钟内一次搞定。

资深工程师反馈要点

在推理与自主性上明显强于 GPT-5.4 和 Claude Opus 4.7
提前发现问题,无需明说就预判 testing 和 review 需求
一个工程师要求它 re-architect 一个协作 markdown 编辑器的评论系统,回来看到一个几乎完成的 12-diff stack
所需的 implementation correction 意外地少

最戏剧化的证言 — NVIDIA 工程师

"Losing access to GPT-5.5 feels like I've had a limb amputated."(失去它感觉像被截肢)

Lovable CTO & Co-Founder Fabian Hedin 引言

核心判断:"Builders want better outcomes, not endless iteration."

concepts｜2️⃣ 关键概念、概念网络

agentic reading｜3️⃣ 费曼 x3