
structure|1️⃣ 三级笔记、思想框架
concepts|2️⃣ 关键概念、概念网络
context:
Judging by my tl there is a growing gap in understanding of AI capability.
费曼一下:不同用户群体对 AI 实际能力的认知差距正在快速拉大。这不是「乐观 vs 悲观」的立场之争,而是两群人看到的是完全不同的 AI——一群人看到的是免费版的翻车视频,另一群人看到的是前沿模型在技术领域的惊人表现。两个世界已经分裂。
context:
This group of people is subject to the highest amount of "AI Psychosis" because the recent improvements in these domains as of this year have been nothing short of staggering.
费曼一下:Karpathy 用这个词描述前沿技术用户的心理状态:当你亲眼看着模型在 1 小时内做完你原本需要几周的工作,你会经历一种深层的认知震撼。这不是「哇好酷」,而是对能力边界和未来走向的严肃重新评估。
context:
These domains offer explicit reward functions that are verifiable meaning they are easily amenable to reinforcement learning training (e.g. unit tests passed yes or no, in contrast to writing, which is much harder to explicitly judge).
费曼一下:强化学习需要明确的「对不对」信号来训练模型。编程有天然的可验证奖励:单元测试过了就是过了。写作没有——「这篇文章好不好」无法用 yes/no 回答。这是 AI 能力在技术领域「尖峰分布」的根本原因。
context:
Even if people paid $200/month to use the state of the art models, a lot of the capabilities are relatively "peaky" in highly technical areas.
费曼一下:AI 的能力提升不是均匀的,而是像山峰一样集中在特定技术领域。编程、数学、研究是“尖峰”,而搜索、写作、建议类任务仍在“平地”。普通用户只能感受到平地,而技术用户站在峰顶。
context:
The thing is that these free and old/deprecated models don't reflect the capability in the latest round of state of the art agentic models of this year, especially OpenAI Codex and Claude Code.
费曼一下:指能够自主操作终端、执行多步骤任务的新一代 AI 模型,以 OpenAI Codex 和 Claude Code 为代表。它们不只是「回答问题」,而是能拿到终端权限后独立完成复杂工程任务——这是当前 AI 能力飞跃的主要载体。
context:
TLDR the people in these two groups are speaking past each other.
费曼一下:两个群体讨论的看似是同一个「AI」,实际上完全是两个世界。一个人说「AI 连洗车店路线都算不对」,另一个人说「AI 刚帮我重构了整个代码库」——他们都没有在说谎,但他们说的是完全不同的事。
agentic reading|3️⃣ 费曼 x3