《Karpathy：AI 能力认知鸿沟正在急剧拉大，两个世界已经分裂》

CleanShot 2026-04-12 at 10.46.54@2x.png

structure｜1️⃣ 三级笔记、思想框架

📌 核心论点

AI 能力的认知鸿沟正在急剧拉大——两类人群对 AI 能力的判断已经彻底分裂
这种分裂不是立场问题，而是使用层级和应用领域的结构性差异造成的

🔍 第一个问题：使用的时效性与层级（Recency & Tier of Use）

很多人的 AI 认知停留在「去年试过免费版 ChatGPT」的体验上
- 这群人看到的是模型的各种翻车：幻觉、语音模式的低级错误（比如「我该开车还是走路去洗车店」的笑话视频）
- 问题是：这些免费的、旧的、已被淘汰的模型，根本不代表今年最新一轮 SOTA agentic 模型的能力
- 特别是 OpenAI Codex 和 Claude Code 这类前沿模型

🔍 第二个问题：能力的「尖峰分布」（Peaky Capabilities）

即使付了 $200/月用 SOTA 模型，很多能力提升集中在高度技术性领域
搜索、写作、建议类的日常查询，并非近期进步最显著的方向
两个原因：
- 技术层面：强化学习依赖 verifiable rewards（可验证奖励），写作等任务难以明确判断好坏
- 商业层面：日常用例不够赚钱，公司把资源集中在更值钱的金矿上

👥 两个群体的分裂

群体一：休闲用户
- 用免费版 ChatGPT，被各种翻车视频逗乐
- 结论：AI 不过如此，漏洞百出
群体二：前沿技术用户
- 同时满足两个条件：1）付费使用 SOTA 前沿 agentic 模型；2）在编程、数学、研究等技术领域专业使用
- 这群人正经历最严重的「AI Psychosis」（AI 精神震撼）
- 因为今年在这些领域的进步令人震惊：你把终端交给模型，它能在 1 小时内重构整个代码库，或发现并利用系统漏洞
- 这些原本需要数天甚至数周的工作，模型现在直接「融化」掉了

💡 为什么技术领域进步如此惊人？两个关键属性

可验证的奖励函数（Verifiable Reward Functions）
- 编程有明确的判定标准：单元测试通过与否
- 写作没有——「好不好」很难量化
- 这让技术领域天然适合强化学习训练
B2B 场景的高价值
- 技术能力在企业场景中更值钱
- 公司团队的最大精力都集中在这里

🎯 TLDR

两个群体在各说各话（speaking past each other）
现实的荒诞之处：免费版语音模式在 Instagram 上答不出最蠢的问题，与此同时，付费版 Codex 能花 1 小时连贯地重构整个代码库、发现并利用系统漏洞
这两件事同时为真——这就是当下 AI 的真实图景

concepts｜2️⃣ 关键概念、概念网络

一、核心概念解析 (Core Concepts)

【AI 能力认知鸿沟】(AI Capability Perception Gap)
- context：
  
  Judging by my tl there is a growing gap in understanding of AI capability.
- 费曼一下：不同用户群体对 AI 实际能力的认知差距正在快速拉大。这不是「乐观 vs 悲观」的立场之争，而是两群人看到的是完全不同的 AI——一群人看到的是免费版的翻车视频，另一群人看到的是前沿模型在技术领域的惊人表现。两个世界已经分裂。
【AI Psychosis】(AI 精神震撼)
- context：
  
  This group of people is subject to the highest amount of "AI Psychosis" because the recent improvements in these domains as of this year have been nothing short of staggering.
- 费曼一下：Karpathy 用这个词描述前沿技术用户的心理状态：当你亲眼看着模型在 1 小时内做完你原本需要几周的工作，你会经历一种深层的认知震撼。这不是「哇好酷」，而是对能力边界和未来走向的严肃重新评估。
【Verifiable Rewards】(可验证奖励)
- context：
  
  These domains offer explicit reward functions that are verifiable meaning they are easily amenable to reinforcement learning training (e.g. unit tests passed yes or no, in contrast to writing, which is much harder to explicitly judge).
- 费曼一下：强化学习需要明确的「对不对」信号来训练模型。编程有天然的可验证奖励：单元测试过了就是过了。写作没有——「这篇文章好不好」无法用 yes/no 回答。这是 AI 能力在技术领域「尖峰分布」的根本原因。
【Peaky Capabilities】(尖峰分布能力)
- context：
  
  Even if people paid $200/month to use the state of the art models, a lot of the capabilities are relatively "peaky" in highly technical areas.
- 费曼一下：AI 的能力提升不是均匀的，而是像山峰一样集中在特定技术领域。编程、数学、研究是“尖峰”，而搜索、写作、建议类任务仍在“平地”。普通用户只能感受到平地，而技术用户站在峰顶。
【Agentic Models】(智能体模型)
- context：
  
  The thing is that these free and old/deprecated models don't reflect the capability in the latest round of state of the art agentic models of this year, especially OpenAI Codex and Claude Code.
- 费曼一下：指能够自主操作终端、执行多步骤任务的新一代 AI 模型，以 OpenAI Codex 和 Claude Code 为代表。它们不只是「回答问题」，而是能拿到终端权限后独立完成复杂工程任务——这是当前 AI 能力飞跃的主要载体。
【Speaking Past Each Other】(各说各话)
- context：
  
  TLDR the people in these two groups are speaking past each other.
- 费曼一下：两个群体讨论的看似是同一个「AI」，实际上完全是两个世界。一个人说「AI 连洗车店路线都算不对」，另一个人说「AI 刚帮我重构了整个代码库」——他们都没有在说谎，但他们说的是完全不同的事。

二、概念网络 (Concept Network)

AI 能力认知鸿沟 是整篇文章的核心论断，其他所有概念都用来解释“为什么会出现这个鸿沟”
Peaky Capabilities 是鸿沟的结构性原因：能力提升不均匀，导致不同用户看到不同的 AI
Verifiable Rewards 是 Peaky Capabilities 的技术根因：强化学习在可验证领域进步快，在不可验证领域停滞
Agentic Models 是能力尖峰的具体载体：前沿技术用户的震撼感主要来自这类模型
AI Psychosis 是群体二对能力尖峰的主观反应：亲眼目睹 Agentic Models 融化复杂任务后的认知震撼
Speaking Past Each Other 是鸿沟的社会表现：因为看到的是完全不同的 AI，两个群体的对话无法真正交汇
因果链：Verifiable Rewards + B2B 价值 → Peaky Capabilities → 不同用户看到不同的 AI → AI 能力认知鸿沟 → Speaking Past Each Other

agentic reading｜3️⃣ 费曼 x3