CleanShot 2026-04-24 at 09.13.58@2x.png

structure|1️⃣ 三级笔记、思想框架

GPT-5.5 发布:OpenAI 官方博客大纲笔记

原标题:Introducing GPT-5.5 — A new class of intelligence for real work 作者:OpenAI 发布时间:2026 年 4 月 23 日 文体:产品发布博客(product announcement/release post)


核心主旨

GPT-5.5 是 OpenAI "迄今最聪明、最好用"的模型,定位为"面向真实工作(real work)的新一类智能"。它的核心突破不在单点答题能力,而在能够自主承担一个完整的工作循环——规划、用工具、检查、处理歧义、持续推进,直到任务完成。

三条主线贯穿全文:

  1. 能力跃迁:在 agentic coding、computer use、knowledge work、scientific research 四大领域实现 step up,而不牺牲速度。
  2. 效率革命:同样任务用更少 tokens,以 GPT-5.4 的 per-token latency 达到更高智能水平;模型甚至被用来优化服务自身的基础设施。
  3. 安全与访问并重:配套迄今最强的安全措施,同时通过 Trusted Access 向合法防御者扩大访问。

编辑性说明(howie 视角):这是 OpenAI 官方 release post,本质是 marketing + positioning 文本。阅读时需注意它既传达真实进展,也构建竞争叙事(尤其对标 Claude Opus 4.7 和 Gemini 3.1 Pro 的 benchmark 选择方式)。大纲笔记忠实还原其内容与结构,批判性分析另作处理。


一、总览:GPT-5.5 是什么(Introduction)

1.1 产品定位:"a new class of intelligence for real work"

1.2 重点跃升领域(four domains of step-up)

  1. Agentic coding(智能体编程)
  2. Computer use(电脑操作)
  3. Knowledge work(知识工作)
  4. Early scientific research(早期科研)

共同特征:"progress depends on reasoning across context and taking action over time"——进步依赖于跨上下文的推理与跨时间的行动。

1.3 智能 × 速度的同时改善

1.4 最强配套安全措施

1.5 发布与可用性(首轮)

1.6 核心 benchmark 概览表(与主要竞品对比)

评测 GPT-5.5 GPT-5.4 GPT-5.5 Pro Claude Opus 4.7 Gemini 3.1 Pro
Terminal-Bench 2.0 82.7% 75.1% - 69.4% 68.5%
Expert-SWE(内部) 73.1% 68.5% - - -
GDPval(wins or ties) 84.9% 83.0% 82.3% 80.3% 67.3%
OSWorld-Verified 78.7% 75.0% - 78.0% -
Toolathlon 55.6% 54.6% - - 48.8%
BrowseComp 84.4% 82.7% 90.1% 79.3% 85.9%
FrontierMath Tier 1–3 51.7% 47.6% 52.4% 43.8% 36.9%
FrontierMath Tier 4 35.4% 27.1% 39.6% 22.9% 16.7%
CyberGym 81.8% 79.0% - 73.1% -

二、模型能力(Model capabilities)

2.1 宏观定位:构建 agentic AI 的全球基础设施


2.2 Agentic coding(智能体编程)

2.2.1 Benchmark 表现

2.2.2 实际工程能力(比 benchmark 更重要)

在 Codex 中能承担 implementation、refactor、debugging、testing、validation。早期测试显示 GPT-5.5 在真实工程工作所依赖的行为上更强:

2.2.3 核心案例与证言

案例 1 — Artemis II 任务 3D 可视化

证言 1 — Dan Shipper(Every 创始人兼 CEO)

证言 2 — Pietro Schirano(MagicPath CEO)

资深工程师反馈要点

最戏剧化的证言 — NVIDIA 工程师

Lovable CTO & Co-Founder Fabian Hedin 引言

concepts|2️⃣ 关键概念、概念网络

agentic reading|3️⃣ 费曼 x3