
structure|1️⃣ 三级笔记、思想框架
🗺️ 文章全景
Sebastian Raschka 的 2025 年度 LLM 综述,系统回顾了这一年大语言模型领域最重要的进展,涵盖训练范式、架构演进、推理扩展、工具使用、评测困境、AI 与人类工作的关系,以及对 2026 年的预测。核心主线:2025 年是推理模型之年,RLVR + GRPO 成为 LLM 后训练的主导范式,推理时扩展与工具使用成为新的进步杠杆。
1. 推理之年:RLVR 与 GRPO 的崛起
- 2025 年 1 月,DeepSeek 发布 R1 论文,展示了用强化学习发展推理行为的可行性
- "Reasoning" 在 LLM 语境中 = 模型先解释答案,解释本身往往能提高回答准确性
1.1 DeepSeek 时刻
- 开放权重模型:R1 性能可比最佳闭源模型(ChatGPT、Gemini)
- 训练成本颠覆认知:DeepSeek V3 训练成本约 500 万美元(而非此前假设的 5000 万-5 亿),R1 在 V3 基础上再训练仅花 29.4 万美元
- 注意:这只是最终运行的计算成本,不包括研究人员薪资、超参搜索等
- RLVR(Reinforcement Learning with Verifiable Rewards):核心创新
- 用可验证的确定性奖励(如数学/代码的正确答案)取代昂贵的人工标注
- 配合 GRPO 算法,使 LLM 后训练可以在大量数据上扩展
- 典型领域:数学和代码(可扩展到其他领域)
- 此前的 SFT + RLHF 受限于昂贵的人工标注(书写回答或偏好标签)
- RLVR 的意义:打开了通过扩展后训练计算来解锁能力的新通道
1.2 LLM 发展焦点年表
- 2022:RLHF + PPO(催生 ChatGPT)
- 2023:LoRA SFT(小模型定制微调)
- 2024:Mid-Training(合成数据、领域数据、长上下文训练)
- 2025:RLVR + GRPO
- 2026 预测:RLVR 扩展 + 更多推理时扩展
- 2027 预测:持续学习(Continual Learning)
1.3 RLVR 的下一步
- 当前只用最终答案正确性做奖励信号 → 下一步:评估 LLM 的解释过程(Process Reward Models / PRMs)
- DeepSeek R1 论文坦承 PRM 目前效果有限
- 但 DeepSeekMath-V2 已开始用第二个 LLM 来评分解释质量
- 另一个方向:将 RLVR 从数学/代码扩展到其他领域
2. GRPO:年度学术宠儿
- GRPO 虽源自 DeepSeek R1(工业界),但概念简洁、实验成本可控,在学术界广受欢迎
- 大量数学改进被提出并被 SOTA 模型采纳:
- OLMo 3 采纳的技巧:零梯度信号过滤、主动采样、Token-level loss、去除 KL loss、Clip higher、截断重要性采样、去除标准差归一化
- DeepSeek V3.2 采纳的技巧:领域特定 KL 强度、重加权 KL、Off-policy 序列掩码
- Raschka 亲测:这些改进实际效果显著——坏梯度更新不再破坏训练运行
- 历史对比:LoRA(2021,学术界)→ DPO(2023,学术界)→ GRPO(2025,工业界但学术广泛采用)
3. LLM 架构:分叉路口
- SOTA 模型仍使用 decoder-style transformer
- 2025 年开源模型趋同于 MoE + 效率注意力机制(GQA / 滑动窗口 / MLA)
- 更激进的效率改进:
- Gated DeltaNets(Qwen3-Next、Kimi Linear)
- Mamba-2 层(NVIDIA Nemotron 3)
- 目标:让注意力随序列长度线性扩展
- 预测:Transformer 至少还会主导几年,但效率工程改进会越来越多
- 新范式萌芽:文本扩散模型(Text Diffusion Models)
- Google 将发布 Gemini Diffusion(快速低延迟,如代码补全)
- LLaDA 2.0(100B 参数,最大文本扩散模型,与 Qwen3 30B 相当)
4. 推理时扩展与工具使用
- 纯粹的规模扩展回报递减:GPT 4.5 被认为 "bad bang for the buck"
- 真正驱动 2025 进步的:更好的训练流水线 + 推理时扩展
- 推理时扩展:权衡延迟 vs 成本 vs 准确性
- DeepSeekMath-V2 通过 self-consistency + self-refinement 达到数学竞赛金牌水平
- 工具使用(Tool Use):大幅降低幻觉率
- LLM 不再靠"记忆",而是调用搜索引擎、计算器 API
- OpenAI gpt-oss 是最早专为工具使用设计的开源模型之一
- 开源生态尚未完全跟上(安全顾虑 + 工具适配滞后)
5. 年度关键词:Benchmaxxing
- Benchmaxxing = 过度优化基准测试分数,分数不再反映真实能力
- 典型案例:Llama 4 基准分数极高,但实际使用体验令人失望
- Raschka 的判断框架:
- 基准分数低于 X → 确定不是好模型(必要阈值)
- 基准分数高于 X → 不能说明比其他高分模型更好
- LLM 评估本质上比图像分类难得多:LLM 承担多种异质任务,无单一指标
6. AI 与编程、写作、研究
- 核心观点:LLM 是让人获得"超能力"的工具,不是替代品
- 编程:核心代码亲手写,LLM 做外围 boilerplate;关键是识别何时该用、何时不该用
- 代码库:专家 + LLM > 非专家 + LLM;LLM 降低入门门槛但质量会触顶
- 技术写作与研究:深度学习仍需专家设计的结构化路径;人类研究者仍需掌舵
- LLM 与倦怠:过度使用可能导致工作空虚感;国际象棋模型——AI 应被视为伙伴而非替代品
7. 竞争优势:私有数据
- LLM 通用能力终将触顶,深入行业需要领域专业化
- 大多数企业拒绝出售数据(数据是核心竞争差异化来源)
- 趋势:大型企业将用私有数据 + 开源基座模型开发内部 LLM
8. From Scratch 系列
- Build A Large Language Model (From Scratch) 已翻译成 9 种语言
- 续作 Build A Reasoning Model (From Scratch) 进行中(第 6 章,GRPO 实现)
9. 2025 惊喜与 2026 预测
9.1 七大惊喜
- 多个推理模型在数学竞赛中达到金牌水平(比预期提前一年)
- Llama 4 失宠,Qwen 超越 Llama
- Mistral AI 采用 DeepSeek V3 架构
- 新竞争者崛起:Kimi、GLM、MiniMax、Yi
- 高效混合架构被头部实验室采纳
- OpenAI 发布开源模型 gpt-oss
- MCP 成为 Agent 系统的事实标准(比预期更快)
9.2 四大预测
- 消费级文本扩散模型将面世
concepts|2️⃣ 关键概念、概念网络
agentic reading|3️⃣ 费曼 x3