Ethan Mollick The Shape of the Thing 블로그 글 대표 이미지

substackcdn.com

沃顿教授眼中的AI指数级增长:这次真的可能不一样

AI指数级增长、Ethan Mollick、Software Factory、RSI、METR基准测试商业

The Shape of the Thing — Ethan Mollick

Measuring AI Ability to Complete Long Tasks — METR

Generative Coding: 10 Breakthrough Technologies 2026 — MIT Technology Review

AI每年都在变快,这是所有人都能感受到的。但沃顿商学院(Wharton)的Ethan Mollick教授更进一步——他把基准测试图表、软件工厂(Software Factory)实验、AI企业CEO的发言串联起来,主张"这场变化是指数级(exponential)的,重塑工作本质的早期信号已经出现"。

3秒速览

AI能力每年都在指数级提升——覆盖图像、编码、推理各个领域

3个人仅靠AI就能交付生产级软件的软件工厂已经登场

AI企业已将递归自我改进(RSI)正式写入路线图

这是什么?

Mollick教授在2026年3月发布的博客文章《The Shape of the Thing》是一份用可视化与定量方式呈现AI性能改进轨迹的现状报告。核心主张可以归纳为三点。

① 指数级改进能用数据证明。GPQA(研究生水平Q&A)、GDPval(AI对比实务专家)、Humanity's Last Exam、Pencil Puzzle Bench这四种截然不同的基准测试中,AI性能都沿着指数曲线前进。METR的"Long Tasks"评估也显示,AI能自主完成的任务时长正在呈几何级数增长。

② "工作方式"已经在改变。安全软件企业StrongDM公开了一个由3人组成、完全依靠AI智能体(agent)完成代码编写、测试和部署的"Software Factory"。规则很简单——"人不写代码"、"人不评审代码"。取而代之的是每位工程师每天要花1000美元以上购买AI Token。

③ 递归自我改进(RSI)已成为现实。Anthropic的Dario Amodei表示"工程师们现在几乎不再亲自写代码",OpenAI则宣布其最新模型是"首个为打造自身做出贡献的模型"。谷歌DeepMind的Demis Hassabis也证实,所有主要AI实验室都在积极推进闭合这个反馈循环。

有什么不同?

将过往的技术革新与AI时代放在一起比较,速度与范围的差异一目了然。

	以往的技术革命	AI指数级增长时代	启示
改进速度	摩尔定律:每2年翻一番	AI基准测试:年度提升10倍以上	留给你准备的时间短得多
岗位消失	1950年以来只消失了1种职业(电梯操作员)	编码、研究、内容等知识工作全面重构开始	被替代的不是某个职业,而是"任务单元"
组织实验	花数十年逐步推行	像Software Factory一样几周内完成激进实验	快速实验的组织占优
自我改进	机器造机器,但设计仍由人来做	AI直接改进下一代AI(RSI)	改进曲线可能变得更陡峭

当然也有反对意见。一些分析师指出,Mollick列出的基准测试图表实际上并非指数曲线,而更像逻辑斯蒂S曲线(logistic S-curve)。因为在满分100的基准上拟合指数曲线,迟早会得出"突破100%"这种不现实的预测。不过大多数专家都认同"方向确实朝上"这一点。

上手指南

培养基准测试素养
把METR Time Horizons、GPQA、Humanity's Last Exam等主要评估指标加入书签。这样你就能用数据而不是感觉去追踪"AI到底变快了多少"。
在自己的工作中找出"可交给智能体的区域"
StrongDM的案例目标并不是让人完全不碰代码。从你的工作中挑出那些能转换成"提示词→产出→复核"流程的任务,先试着交给智能体处理。
设计小规模Software Factory实验
以团队为单位跑一轮1~2周的"AI-only冲刺"。就算不是编码,研究、报告撰写、设计草稿等任何领域都可以尝试。
把"变化速度"本身当作监控对象
Mollick强调的核心不是具体某项技术,而是"变化的速度"。不妨建立一个按季度整理AI基准测试趋势、主要企业AI采用公告、政策变化的例行流程。
对RSI新闻保持敏感
AI企业越来越频繁地宣布"我们用自家模型打造了下一代模型"。一旦这个循环真正闭合,变化速度可能会再上一个台阶,所以要定期关注OpenAI、Anthropic、Google DeepMind的模型发布说明。