
structure|1️⃣ 三级笔记、思想框架
GPT-5.5 发布:OpenAI 官方博客大纲笔记
原标题:Introducing GPT-5.5 — A new class of intelligence for real work
作者:OpenAI
发布时间:2026 年 4 月 23 日
文体:产品发布博客(product announcement/release post)
核心主旨
GPT-5.5 是 OpenAI "迄今最聪明、最好用"的模型,定位为"面向真实工作(real work)的新一类智能"。它的核心突破不在单点答题能力,而在能够自主承担一个完整的工作循环——规划、用工具、检查、处理歧义、持续推进,直到任务完成。
三条主线贯穿全文:
- 能力跃迁:在 agentic coding、computer use、knowledge work、scientific research 四大领域实现 step up,而不牺牲速度。
- 效率革命:同样任务用更少 tokens,以 GPT-5.4 的 per-token latency 达到更高智能水平;模型甚至被用来优化服务自身的基础设施。
- 安全与访问并重:配套迄今最强的安全措施,同时通过 Trusted Access 向合法防御者扩大访问。
编辑性说明(howie 视角):这是 OpenAI 官方 release post,本质是 marketing + positioning 文本。阅读时需注意它既传达真实进展,也构建竞争叙事(尤其对标 Claude Opus 4.7 和 Gemini 3.1 Pro 的 benchmark 选择方式)。大纲笔记忠实还原其内容与结构,批判性分析另作处理。
一、总览:GPT-5.5 是什么(Introduction)
1.1 产品定位:"a new class of intelligence for real work"
- 最聪明、最直觉好用的模型,代表"在电脑上完成工作的新方式"下一步。
- 关键能力短名单:
- 写代码、debug 代码
- 上网做 research
- 分析数据
- 创建 documents 和 spreadsheets
- 操作软件(operating software)
- 跨工具移动直至任务完成(moving across tools until a task is finished)
- 范式转变:从"小心地管理每一步"变为"把一个 messy、multi-part 的任务交给它,信任它自己规划、用工具、检查、处理歧义、持续推进"。
1.2 重点跃升领域(four domains of step-up)
- Agentic coding(智能体编程)
- Computer use(电脑操作)
- Knowledge work(知识工作)
- Early scientific research(早期科研)
共同特征:"progress depends on reasoning across context and taking action over time"——进步依赖于跨上下文的推理与跨时间的行动。
1.3 智能 × 速度的同时改善
- 大模型通常更聪明但更慢,GPT-5.5 在达到 GPT-5.4 的 per-token latency 的同时,性能大幅跃升。
- 同样 Codex 任务使用显著更少 tokens——既更能干,又更高效。
1.4 最强配套安全措施
- 用完整的 safety and preparedness frameworks 评估。
- 内外部 redteam 测试。
- 针对高级网络安全与生物学能力做了 targeted testing。
- 发布前从近 200 个可信早期合作伙伴收集真实用例反馈。
1.5 发布与可用性(首轮)
- ChatGPT + Codex:GPT-5.5 向 Plus / Pro / Business / Enterprise 用户开放。
- ChatGPT:GPT-5.5 Pro 向 Pro / Business / Enterprise 用户开放。
- API:因 safeguard 要求更高,"很快"推出(very soon)。
1.6 核心 benchmark 概览表(与主要竞品对比)
| 评测 |
GPT-5.5 |
GPT-5.4 |
GPT-5.5 Pro |
Claude Opus 4.7 |
Gemini 3.1 Pro |
| Terminal-Bench 2.0 |
82.7% |
75.1% |
- |
69.4% |
68.5% |
| Expert-SWE(内部) |
73.1% |
68.5% |
- |
- |
- |
| GDPval(wins or ties) |
84.9% |
83.0% |
82.3% |
80.3% |
67.3% |
| OSWorld-Verified |
78.7% |
75.0% |
- |
78.0% |
- |
| Toolathlon |
55.6% |
54.6% |
- |
- |
48.8% |
| BrowseComp |
84.4% |
82.7% |
90.1% |
79.3% |
85.9% |
| FrontierMath Tier 1–3 |
51.7% |
47.6% |
52.4% |
43.8% |
36.9% |
| FrontierMath Tier 4 |
35.4% |
27.1% |
39.6% |
22.9% |
16.7% |
| CyberGym |
81.8% |
79.0% |
- |
73.1% |
- |
二、模型能力(Model capabilities)
2.1 宏观定位:构建 agentic AI 的全球基础设施
- OpenAI 的目标:"building the global infrastructure for agentic AI",让全球的人和企业能用 AI 完成工作。
- 过去一年软件工程被 AI 剧烈加速;GPT-5.5 + Codex + ChatGPT 正把这种转变扩展到科研与电脑工作的更广领域。
- 效率维度的新说法:GPT-5.5 不只是"更聪明",而是"在解决问题的过程中更高效"——更少 tokens、更少重试,却得到更高质量输出。
- 外部验证:在 Artificial Analysis Coding Agent Index 上,GPT-5.5 以"竞品前沿编码模型一半的成本"提供 state-of-the-art intelligence。
2.2 Agentic coding(智能体编程)
2.2.1 Benchmark 表现
- Terminal-Bench 2.0:测试复杂命令行工作流(规划、迭代、工具协调) → SOTA 82.7%
- SWE-Bench Pro:真实 GitHub issue 解决 → 58.6%,单次 end-to-end 解决的任务数超过前代
- Expert-SWE:内部评测,长时程编码任务,人类专家中位完成时间 20 小时 → 超过 GPT-5.4
- 三项评测共同特点:GPT-5.5 分数更高的同时 tokens 消耗更少
2.2.2 实际工程能力(比 benchmark 更重要)
在 Codex 中能承担 implementation、refactor、debugging、testing、validation。早期测试显示 GPT-5.5 在真实工程工作所依赖的行为上更强:
- Holding context across large systems(跨大型系统保持上下文)
- Reasoning through ambiguous failures(在含糊失败中推理)
- Checking assumptions with tools(用工具检查假设)
- Carrying changes through the surrounding codebase(把改动带到周边代码)
2.2.3 核心案例与证言
案例 1 — Artemis II 任务 3D 可视化
- Prompt:用 WebGL + Vite 构建基于 NASA/JPL Horizons 真实数据的 Artemis II 任务可视化 app,含真实轨道力学与交互
- 结果:渲染 Orion、Moon、Sun 的真实轨迹
证言 1 — Dan Shipper(Every 创始人兼 CEO)
- 金句:"The first coding model I've used that has serious conceptual clarity."(我用过的第一个具有严肃概念清晰性的编码模型)
- 实例:他花了数天 debug 一个 post-launch 问题,后来请顶级工程师重写了部分系统。他把时钟"倒回",看 GPT-5.5 能否从同样的破碎状态产出同样的 rewrite。GPT-5.4 做不到,GPT-5.5 做到了。
证言 2 — Pietro Schirano(MagicPath CEO)
- 金句:"It genuinely feels like I'm working with a higher intelligence, and there's almost a sense of respect."(有一种近乎敬意的感觉)
- 实例:把包含几百个前端和 refactor 改动的 branch,合并到主干也已大改的 main branch,20 分钟内一次搞定。
资深工程师反馈要点
- 在推理与自主性上明显强于 GPT-5.4 和 Claude Opus 4.7
- 提前发现问题,无需明说就预判 testing 和 review 需求
- 一个工程师要求它 re-architect 一个协作 markdown 编辑器的评论系统,回来看到一个几乎完成的 12-diff stack
- 所需的 implementation correction 意外地少
最戏剧化的证言 — NVIDIA 工程师
- "Losing access to GPT-5.5 feels like I've had a limb amputated."(失去它感觉像被截肢)
Lovable CTO & Co-Founder Fabian Hedin 引言
- 核心判断:"Builders want better outcomes, not endless iteration."
concepts|2️⃣ 关键概念、概念网络
agentic reading|3️⃣ 费曼 x3