
structure|1️⃣ 三级笔记、思想框架
AI State of the Union:2025 年的编程拐点
- 2025 年是 Anthropic 和 OpenAI 全力押注代码生成的一年——"code is the application"
- Claude Code 2025 年 2 月上线,大量用户涌入 $200/月的订阅
- 两大实验室把所有 reinforcement learning 和 reasoning 训练资源都投向了 coding
- 2025 年 11 月:拐点到来
- GPT 5.1 和 Claude Opus 4.5 同时发布
- 增量提升跨越了一个关键阈值:从 "most of the time it mostly works" 变成了 "almost all of the time it does what you told it to do"
- 这个差别 "makes all of the difference in the world"
- 假期效应:大量工程师在圣诞假期开始用这些工具,1-2 月集体觉醒
- "A lot of people woke up in January and February and started realizing, oh wow, I can churn out 10,000 lines of code in a day."
- 代码是最容易验证的知识工作——"code is obviously right or wrong"——所以 AI agent 先来颠覆软件工程
- 核心悬念:"An open question for me is how many other knowledge work fields are actually prone to these agent loops."
Vibe Coding vs Agentic Engineering:两种截然不同的范式
Vibe Coding
- Andrej Karpathy 的原始定义:不看代码,纯凭感觉——"you don't even look at code and you basically just go on the vibes"
- 非程序员也能让 Claude 构建小应用——"democratizing the art of getting a computer to do stuff for you"
- 边界在于责任:给自己用,随便搞;给别人用,"that's when you need to take a step back"
- 判断什么是"负责任"的使用本身就是 expert level skill
Agentic Engineering
- Simon 提出的术语,强调 coding agents 的深度协作
- 与 chatbot 式代码生成的关键区别:agent 会自己写代码、debug、测试、迭代
- "The art of getting really good results out of this...that's never going to be easy. That's never going to be trivial."
- Simon 正在以"每次写完一章就发到博客"的方式写一本关于 agentic engineering 的书
Dark Factory 模式:无人代码工厂
- 概念来源:工厂自动化到极致可以关灯运行——"the machines can operate in complete darkness"
- StrongDM 的激进实验(2025 年 8 月开始):
- 规则一:Nobody writes any code——所有代码由 agent 生成
- Simon 自己目前 95% 的代码不是自己打的:"Today, probably 95% of the code that I produce, I didn't type it myself."
- 规则二:Nobody reads the code——这才是真正的突破
- 如果不读代码,如何保证质量?
- Swarm of agent testers:模拟终端用户的 agent 测试集群,24 小时不间断
- 模拟员工在模拟的 Slack 频道里发请求:"Hey, could somebody give me access to Jira?"
- 成本约 $10,000/天的 token 费用
- 他们甚至用 coding agent 构建了 Slack、Jira、Okta 等系统的完整仿真——一个小 Go binary
- 更深层的意义:这不仅仅是工具问题,而是思维方式的突破——"How do we tell our software is good if we're not reviewing the code?"
AI 对不同层级工程师的冲击
- ThoughtWorks 的发现——AI 从中间吃起:
- 资深工程师(senior):获益最大。AI 是 "amplifiers of existing skills and experience",25 年经验被极大放大
- 初级工程师(junior):显著受益。Cloudflare 和 Shopify 各招 1000 名实习生——onboarding 从一个月缩短到一周
- 中级工程师(mid-career):处境最尴尬。"That's the group which Thoughtworks resolved were probably in the most trouble right now"
- Simon 的亲身体验:"Using coding agents well is taking every inch of my 25 years of experience as a software engineer."
生产力悖论:更高效却更疲惫
- 并行运行 4 个 agents,到上午 11 点就精疲力竭:"By 11:00 a.m., I am wiped out."
- 人类认知容量有上限——"there is a limit on human cognition in how much you can hold in your head at one time"
- 类似赌博和成瘾的倾向:有人凌晨 4 点起来给 agent 派任务
- 但同时极度有趣——朋友们把积攒十几年的 side project backlog 全部清空了
- Simon 的 2026 新年决心:"Take on more stuff and be more ambitious"——与往年 "focus more, take on less" 完全相反
Agentic Engineering 四大核心模式
1. Code is Cheap
- 最大冲击:曾经最耗时的环节现在最快
- 原型几乎免费——任何 feature 都可以先做 3 个不同方案再选择
- "When you get AI involved in your ideation phase, it's much more about the prototypes."
- 但 AI 模拟用户测试不靠谱——真正的 usability testing 仍需真人
2. Hoarding Things You Know How to Do
- 核心策略:像仓鼠一样囤积你做过的所有技术尝试
- simonw/tools:193 个小型 HTML/JS 工具,每个都是一个"知道这是可能的"的锚点
- simonw/research:75+ 个 coding agent 研究项目——不是 deep research 报告,而是实际跑过代码的研究
- 关键技巧:告诉 LLM "去读这个工具和那个工具的源码,然后把它们组合起来解决新问题"——效果极好
3. Red/Green TDD
- 让 agent 先写测试 → 看测试失败(red)→ 写实现 → 看测试通过(green)
- Simon 自己以前讨厌 TDD——"I tried it for a couple of years. It just slowed me down."
- 但 agents 不会无聊:"I don't care if they're bored."
- 放弃测试是巨大错误:"I think those people are wrong. I think it's a huge mistake if you drop tests."
- 测试代码量暴增但不再是问题——"updating a thousand lines of test is now the job of the coding agent"
4. Start with a Good Template
- 只需一个极薄的起始模板(含一个 1+1=2 的测试),agent 就能准确延续你的代码风格
- 比写长篇 Claude.md 更有效——"instead I start with a very thin skeleton that just gives it enough hints"
Prompt Injection 与 Lethal Trifecta
- Prompt injection:Simon 在 2022 年命名(ChatGPT 发布前),但名字有误导性
- 与 SQL injection 类似但无法用同样方式修复
- 人们听到这个词会凭直觉猜错含义——"just because you were the first to define a term doesn't mean you actually get to define what it means"
- Lethal Trifecta(致命三角)——第二次命名尝试,故意设计为不可凭直觉猜测:
- 私密信息(access to private information)
- 恶意指令入口(exposed to malicious instructions)
- 数据外泄通道(exfiltration mechanism)
- 解法:切断三条腿中的任何一条,通常最容易切断外泄通道
- AI 安全检测只能做到约 97%——"I think that's a failing grade"
- Normalization of deviance:每次侥幸逃脱都在强化虚假的安全感
- 类比挑战者号航天飞机灾难:所有人都知道 O-ring 不可靠,但每次成功发射都让整个机构更自信
- Simon 预测 AI 领域会出现类似的 "Challenger disaster"
- 但他也承认:"I've made a version of this prediction every six months for the past 3 years and it hasn't happened."
OpenClaw 现象
- 从第一行代码(2025/11/25)到超级碗广告仅 3.5 个月——前所未有的增长速度
- 本质上是 Simon 最反对的架构:全权限个人助手 + 邮箱访问 + 可执行操作
- 安全上是灾难(有人丢了 Bitcoin wallet),但证明了用户对个人 AI 助手的需求是压倒性的
- "If you can build safe OpenClaw...that's a huge opportunity. I don't know how to do it."
- 比喻:OpenClaw 是 Tamagotchi(电子宠物),Mac Mini 是它的 aquarium(水族箱)
- 新通用术语:这类个人 AI 助手统称为 "claws"
Simon 的当前工作与思考
- Datasette:面向数据新闻的开源工具,帮记者用数据讲故事
- 博客开始盈利:赞助商横幅 + newsletter 付费信息
- Zero-deliverable consulting:一小时通话,零交付物,按时计费
- 关于 AI 的乐观面:介绍了新西兰 Kakapo 鹦鹉的好消息——2026 年迎来四年来首个繁殖季
concepts|2️⃣ 关键概念、概念网络
agentic reading|3️⃣ 费曼 x3