《Sebastian Raschka 年度万字综述：2025 年 LLM 全面回顾与 2026 预测》

structure｜1️⃣ 三级笔记、思想框架

🗺️ 文章全景

Sebastian Raschka 的 2025 年度 LLM 综述，系统回顾了这一年大语言模型领域最重要的进展，涵盖训练范式、架构演进、推理扩展、工具使用、评测困境、AI 与人类工作的关系，以及对 2026 年的预测。核心主线：2025 年是推理模型之年，RLVR + GRPO 成为 LLM 后训练的主导范式，推理时扩展与工具使用成为新的进步杠杆。

1. 推理之年：RLVR 与 GRPO 的崛起

2025 年 1 月，DeepSeek 发布 R1 论文，展示了用强化学习发展推理行为的可行性
"Reasoning" 在 LLM 语境中 = 模型先解释答案，解释本身往往能提高回答准确性

1.1 DeepSeek 时刻

开放权重模型：R1 性能可比最佳闭源模型（ChatGPT、Gemini）
训练成本颠覆认知：DeepSeek V3 训练成本约 500 万美元（而非此前假设的 5000 万-5 亿），R1 在 V3 基础上再训练仅花 29.4 万美元
- 注意：这只是最终运行的计算成本，不包括研究人员薪资、超参搜索等
RLVR（Reinforcement Learning with Verifiable Rewards）：核心创新
- 用可验证的确定性奖励（如数学/代码的正确答案）取代昂贵的人工标注
- 配合 GRPO 算法，使 LLM 后训练可以在大量数据上扩展
- 典型领域：数学和代码（可扩展到其他领域）
此前的 SFT + RLHF 受限于昂贵的人工标注（书写回答或偏好标签）
RLVR 的意义：打开了通过扩展后训练计算来解锁能力的新通道

1.2 LLM 发展焦点年表

2022：RLHF + PPO（催生 ChatGPT）
2023：LoRA SFT（小模型定制微调）
2024：Mid-Training（合成数据、领域数据、长上下文训练）
2025：RLVR + GRPO
2026 预测：RLVR 扩展 + 更多推理时扩展
2027 预测：持续学习（Continual Learning）

1.3 RLVR 的下一步

当前只用最终答案正确性做奖励信号 → 下一步：评估 LLM 的解释过程（Process Reward Models / PRMs）
- DeepSeek R1 论文坦承 PRM 目前效果有限
- 但 DeepSeekMath-V2 已开始用第二个 LLM 来评分解释质量
另一个方向：将 RLVR 从数学/代码扩展到其他领域

2. GRPO：年度学术宠儿

GRPO 虽源自 DeepSeek R1（工业界），但概念简洁、实验成本可控，在学术界广受欢迎
大量数学改进被提出并被 SOTA 模型采纳：
- OLMo 3 采纳的技巧：零梯度信号过滤、主动采样、Token-level loss、去除 KL loss、Clip higher、截断重要性采样、去除标准差归一化
- DeepSeek V3.2 采纳的技巧：领域特定 KL 强度、重加权 KL、Off-policy 序列掩码
Raschka 亲测：这些改进实际效果显著——坏梯度更新不再破坏训练运行
历史对比：LoRA（2021，学术界）→ DPO（2023，学术界）→ GRPO（2025，工业界但学术广泛采用）

3. LLM 架构：分叉路口

SOTA 模型仍使用 decoder-style transformer
2025 年开源模型趋同于 MoE + 效率注意力机制（GQA / 滑动窗口 / MLA）
更激进的效率改进：
- Gated DeltaNets（Qwen3-Next、Kimi Linear）
- Mamba-2 层（NVIDIA Nemotron 3）
- 目标：让注意力随序列长度线性扩展
预测：Transformer 至少还会主导几年，但效率工程改进会越来越多
新范式萌芽：文本扩散模型（Text Diffusion Models）
- Google 将发布 Gemini Diffusion（快速低延迟，如代码补全）
- LLaDA 2.0（100B 参数，最大文本扩散模型，与 Qwen3 30B 相当）

4. 推理时扩展与工具使用

纯粹的规模扩展回报递减：GPT 4.5 被认为 "bad bang for the buck"
真正驱动 2025 进步的：更好的训练流水线 + 推理时扩展
推理时扩展：权衡延迟 vs 成本 vs 准确性
- DeepSeekMath-V2 通过 self-consistency + self-refinement 达到数学竞赛金牌水平
工具使用（Tool Use）：大幅降低幻觉率
- LLM 不再靠"记忆"，而是调用搜索引擎、计算器 API
- OpenAI gpt-oss 是最早专为工具使用设计的开源模型之一
- 开源生态尚未完全跟上（安全顾虑 + 工具适配滞后）

5. 年度关键词：Benchmaxxing

Benchmaxxing = 过度优化基准测试分数，分数不再反映真实能力
典型案例：Llama 4 基准分数极高，但实际使用体验令人失望
Raschka 的判断框架：
- 基准分数低于 X → 确定不是好模型（必要阈值）
- 基准分数高于 X → 不能说明比其他高分模型更好
LLM 评估本质上比图像分类难得多：LLM 承担多种异质任务，无单一指标

6. AI 与编程、写作、研究

核心观点：LLM 是让人获得"超能力"的工具，不是替代品
编程：核心代码亲手写，LLM 做外围 boilerplate；关键是识别何时该用、何时不该用
代码库：专家 + LLM > 非专家 + LLM；LLM 降低入门门槛但质量会触顶
技术写作与研究：深度学习仍需专家设计的结构化路径；人类研究者仍需掌舵
LLM 与倦怠：过度使用可能导致工作空虚感；国际象棋模型——AI 应被视为伙伴而非替代品

7. 竞争优势：私有数据

LLM 通用能力终将触顶，深入行业需要领域专业化
大多数企业拒绝出售数据（数据是核心竞争差异化来源）
趋势：大型企业将用私有数据 + 开源基座模型开发内部 LLM

8. From Scratch 系列

Build A Large Language Model (From Scratch) 已翻译成 9 种语言
续作 Build A Reasoning Model (From Scratch) 进行中（第 6 章，GRPO 实现）

9. 2025 惊喜与 2026 预测

9.1 七大惊喜

多个推理模型在数学竞赛中达到金牌水平（比预期提前一年）
Llama 4 失宠，Qwen 超越 Llama
Mistral AI 采用 DeepSeek V3 架构
新竞争者崛起：Kimi、GLM、MiniMax、Yi
高效混合架构被头部实验室采纳
OpenAI 发布开源模型 gpt-oss
MCP 成为 Agent 系统的事实标准（比预期更快）

9.2 四大预测

消费级文本扩散模型将面世

concepts｜2️⃣ 关键概念、概念网络

agentic reading｜3️⃣ 费曼 x3