代码智能体从「偶尔有效」变成「基本可用」,有一个特定的时间节点。Django联合创始人Simon Willison说,那是2025年11月。这是他在PyCon US 2026用五分钟闪电演讲总结过去六个月的结论。
11月到底发生了什么?
2025年11月是LLM历史上特殊的一个月。五个月里「最好的模型」换了五次,而且都集中在11月附近。 从Claude Sonnet 4.5(9月)开始,再到GPT-5.1、Gemini 3、GPT-5.1 Codex Max、Claude Opus 4.5,Anthropic、OpenAI、Google轮番坐上头把交椅。
但真正的变化不在这里。Willison指出的核心转变是:代码智能体从「often-work(偶尔有效)」跨越到了「mostly-work(基本可用)」。 以前让AI写代码,需要持续监督和反复修改。现在已经达到可以真正委托的水平了。
技术原因是RLVR(可验证奖励强化学习)。 OpenAI和Anthropic把2025年的大部分时间都投入到这里。逻辑很简单——代码有编译器这个客观的即时裁判(通过/失败)。直接用这个反馈信号来训练模型,在「有标准答案的问题」上性能就会大幅提升。代码恰好是RLVR的完美场景。
这到底改变了什么?
Willison把11月到1月称为「LLM精神症期间」。 代码智能体突然开始好用,开发者们就陷入了各种野心勃勃的项目。Willison自己也做了个用Python实现JavaScript的micro-javascript项目。完全没人需要,但AI能做到这件事本身就让人兴奋。
2026年2月,OpenClaw爆红了。 这是一个在自己设备上运行的开源个人AI助手,Mac Mini M4在全国各地断货。Drew Breunig的比喻很妙:「Mac Mini是你的Claw的水族馆」。 不依赖云端、在自己服务器上养AI这个概念引发了广泛共鸣。
| 2025年上半年(之前) | 2025年11月以后(现在) | |
|---|---|---|
| 代码智能体可靠性 | often-work(需要持续监督) | mostly-work(可以真正委托) |
| 本地模型性能 | 明显不如云端模型 | 特定任务超越顶级云端模型 |
| 个人AI服务器 | 仅限技术人员(复杂配置) | OpenClaw让普通人也能上手 |
| 模型竞争格局 | OpenAI一家独大 | Anthropic、Google、中国模型三足鼎立 |
最令人震惊的是本地模型的表现。2026年4月,Willison用笔记本运行的Qwen3.6-35B-A3B画出了比Claude Opus 4.7更好的SVG图像。 一个20.9GB的笔记本模型击败了顶级云端模型。 中国Z.ai的GLM-5.1(754B参数,开放权重)在SWE-Bench Pro上拿到58.4%,超过了Claude Opus 4.6(57.3%)和GPT-5.4(57.7%)。
骑自行车的鹈鹕基准测试是什么?
这是Willison的非正式测试:「画一只骑自行车的鹈鹕SVG」。这个组合几乎不会出现在训练数据里,所以能测试真正的创意推理能力。看似玩笑,但测试结果与模型的实际实用性确实有很高的相关性。
核心整理:怎么开始
- 认真重新使用代码智能体
Claude Code、Cursor、GitHub Copilot——2025年11月以后可靠性真的不一样了。如果半年前试过放弃了,现在值得再试。从重复性任务、测试代码生成、重构开始委托。 - 开始本地模型实验
Ollama + Qwen3.6-35B可以在笔记本上运行。量化版是20.9GB,需要32GB以上内存。对于隐私敏感的工作特别有用。 - 不要固执于一个模型
五个月换了五次冠军。定期测试哪个模型更适合特定任务很重要。代码用Claude Code,图像用Gemini 3.1 Pro,智能体代码用GLM-5.1 API。 - 通过OpenRouter API使用GLM-5.1
754B参数本地运行太难(需要8x H200),但可以通过OpenRouter用API访问。目前智能体代码任务中最强的开源模型。 - 警惕LLM精神症
AI突然好用起来,很容易陷入过于野心勃勃的项目。先问「谁真的需要这个?」再动手。Willison自己也从中吸取了教训。




