AI每年都在变快,这是所有人都能感受到的。但沃顿商学院(Wharton)的Ethan Mollick教授更进一步——他把基准测试图表、软件工厂(Software Factory)实验、AI企业CEO的发言串联起来,主张"这场变化是指数级(exponential)的,重塑工作本质的早期信号已经出现"。
这是什么?
Mollick教授在2026年3月发布的博客文章《The Shape of the Thing》是一份用可视化与定量方式呈现AI性能改进轨迹的现状报告。核心主张可以归纳为三点。
② "工作方式"已经在改变。安全软件企业StrongDM公开了一个由3人组成、完全依靠AI智能体(agent)完成代码编写、测试和部署的"Software Factory"。规则很简单——"人不写代码"、"人不评审代码"。取而代之的是每位工程师每天要花1000美元以上购买AI Token。
③ 递归自我改进(RSI)已成为现实。Anthropic的Dario Amodei表示"工程师们现在几乎不再亲自写代码",OpenAI则宣布其最新模型是"首个为打造自身做出贡献的模型"。谷歌DeepMind的Demis Hassabis也证实,所有主要AI实验室都在积极推进闭合这个反馈循环。
有什么不同?
将过往的技术革新与AI时代放在一起比较,速度与范围的差异一目了然。
| 以往的技术革命 | AI指数级增长时代 | 启示 | |
|---|---|---|---|
| 改进速度 | 摩尔定律:每2年翻一番 | AI基准测试:年度提升10倍以上 | 留给你准备的时间短得多 |
| 岗位消失 | 1950年以来只消失了1种职业(电梯操作员) | 编码、研究、内容等知识工作全面重构开始 | 被替代的不是某个职业,而是"任务单元" |
| 组织实验 | 花数十年逐步推行 | 像Software Factory一样几周内完成激进实验 | 快速实验的组织占优 |
| 自我改进 | 机器造机器,但设计仍由人来做 | AI直接改进下一代AI(RSI) | 改进曲线可能变得更陡峭 |
当然也有反对意见。一些分析师指出,Mollick列出的基准测试图表实际上并非指数曲线,而更像逻辑斯蒂S曲线(logistic S-curve)。因为在满分100的基准上拟合指数曲线,迟早会得出"突破100%"这种不现实的预测。不过大多数专家都认同"方向确实朝上"这一点。
上手指南
- 培养基准测试素养
把METR Time Horizons、GPQA、Humanity's Last Exam等主要评估指标加入书签。这样你就能用数据而不是感觉去追踪"AI到底变快了多少"。 - 在自己的工作中找出"可交给智能体的区域"
StrongDM的案例目标并不是让人完全不碰代码。从你的工作中挑出那些能转换成"提示词→产出→复核"流程的任务,先试着交给智能体处理。 - 设计小规模Software Factory实验
以团队为单位跑一轮1~2周的"AI-only冲刺"。就算不是编码,研究、报告撰写、设计草稿等任何领域都可以尝试。 - 把"变化速度"本身当作监控对象
Mollick强调的核心不是具体某项技术,而是"变化的速度"。不妨建立一个按季度整理AI基准测试趋势、主要企业AI采用公告、政策变化的例行流程。 - 对RSI新闻保持敏感
AI企业越来越频繁地宣布"我们用自家模型打造了下一代模型"。一旦这个循环真正闭合,变化速度可能会再上一个台阶,所以要定期关注OpenAI、Anthropic、Google DeepMind的模型发布说明。
深入了解
同一作者撰写的《A Guide to Which AI to Use in the Agentic Era》提供了"什么AI适合什么用途"的实战指南。如果你好奇智能体时代的工具选择法,这篇是必读。
METR的原始研究表明AI能自主处理的任务时长正在呈几何级数增长。基准测试方法论和局限性都透明公开。
这个站点公开了3人团队仅用AI打造软件的具体技法。结合Simon Willison和Dan Shapiro的外部观察一起读,能均衡地看到实际运行的优势和短板。
Free Splains的分析逐一拆解Mollick列出的四张基准测试图表,主张实际上更接近逻辑斯蒂增长(S曲线)。两边一起看,能形成更均衡的视角。




