AI每年都在变快,这是所有人都能感受到的。但沃顿商学院(Wharton)的Ethan Mollick教授更进一步——他把基准测试图表、软件工厂(Software Factory)实验、AI企业CEO的发言串联起来,主张"这场变化是指数级(exponential)的,重塑工作本质的早期信号已经出现"。

3秒速览
AI能力每年都在指数级提升——覆盖图像、编码、推理各个领域
3个人仅靠AI就能交付生产级软件的软件工厂已经登场
AI企业已将递归自我改进(RSI)正式写入路线图

这是什么?

Mollick教授在2026年3月发布的博客文章《The Shape of the Thing》是一份用可视化与定量方式呈现AI性能改进轨迹的现状报告。核心主张可以归纳为三点。

① 指数级改进能用数据证明。GPQA(研究生水平Q&A)、GDPval(AI对比实务专家)、Humanity's Last Exam、Pencil Puzzle Bench这四种截然不同的基准测试中,AI性能都沿着指数曲线前进。METR的"Long Tasks"评估也显示,AI能自主完成的任务时长正在呈几何级数增长。

② "工作方式"已经在改变。安全软件企业StrongDM公开了一个由3人组成、完全依靠AI智能体(agent)完成代码编写、测试和部署的"Software Factory"。规则很简单——"人不写代码"、"人不评审代码"。取而代之的是每位工程师每天要花1000美元以上购买AI Token

③ 递归自我改进(RSI)已成为现实。Anthropic的Dario Amodei表示"工程师们现在几乎不再亲自写代码",OpenAI则宣布其最新模型是"首个为打造自身做出贡献的模型"。谷歌DeepMind的Demis Hassabis也证实,所有主要AI实验室都在积极推进闭合这个反馈循环。

有什么不同?

将过往的技术革新与AI时代放在一起比较,速度与范围的差异一目了然。

以往的技术革命AI指数级增长时代启示
改进速度摩尔定律:每2年翻一番AI基准测试:年度提升10倍以上留给你准备的时间短得多
岗位消失1950年以来只消失了1种职业(电梯操作员)编码、研究、内容等知识工作全面重构开始被替代的不是某个职业,而是"任务单元"
组织实验花数十年逐步推行像Software Factory一样几周内完成激进实验快速实验的组织占优
自我改进机器造机器,但设计仍由人来做AI直接改进下一代AI(RSI)改进曲线可能变得更陡峭

当然也有反对意见。一些分析师指出,Mollick列出的基准测试图表实际上并非指数曲线,而更像逻辑斯蒂S曲线(logistic S-curve)。因为在满分100的基准上拟合指数曲线,迟早会得出"突破100%"这种不现实的预测。不过大多数专家都认同"方向确实朝上"这一点。

上手指南

  1. 培养基准测试素养
    把METR Time Horizons、GPQA、Humanity's Last Exam等主要评估指标加入书签。这样你就能用数据而不是感觉去追踪"AI到底变快了多少"。
  2. 在自己的工作中找出"可交给智能体的区域"
    StrongDM的案例目标并不是让人完全不碰代码。从你的工作中挑出那些能转换成"提示词→产出→复核"流程的任务,先试着交给智能体处理。
  3. 设计小规模Software Factory实验
    以团队为单位跑一轮1~2周的"AI-only冲刺"。就算不是编码,研究、报告撰写、设计草稿等任何领域都可以尝试。
  4. 把"变化速度"本身当作监控对象
    Mollick强调的核心不是具体某项技术,而是"变化的速度"。不妨建立一个按季度整理AI基准测试趋势、主要企业AI采用公告、政策变化的例行流程。
  5. 对RSI新闻保持敏感
    AI企业越来越频繁地宣布"我们用自家模型打造了下一代模型"。一旦这个循环真正闭合,变化速度可能会再上一个台阶,所以要定期关注OpenAI、Anthropic、Google DeepMind的模型发布说明。

深入了解

📖 Mollick的智能体时代指南

同一作者撰写的《A Guide to Which AI to Use in the Agentic Era》提供了"什么AI适合什么用途"的实战指南。如果你好奇智能体时代的工具选择法,这篇是必读。

🔬 METR Time Horizons 原始报告

METR的原始研究表明AI能自主处理的任务时长正在呈几何级数增长。基准测试方法论和局限性都透明公开。

🏭 StrongDM Software Factory 技术指南

这个站点公开了3人团队仅用AI打造软件的具体技法。结合Simon Willison和Dan Shapiro的外部观察一起读,能均衡地看到实际运行的优势和短板。

⚖️ 反方观点:"LLM并非指数级改进"

Free Splains的分析逐一拆解Mollick列出的四张基准测试图表,主张实际上更接近逻辑斯蒂增长(S曲线)。两边一起看,能形成更均衡的视角。