Simon Willison의 PyCon US 2026 라이트닝 토크 슬라이드 - 지난 6개월 LLM 변화

static.simonwillison.net

代码智能体「真正开始工作」的那天 — 2025年11月拐点与本地模型的崛起

代码智能体, 本地LLM, RLVR, Qwen3.6, GLM-5.1, 2025年11月拐点开发

The last six months in LLMs in five minutes

Qwen3.6-35B-A3B on my laptop drew me a better pelican than Claude Opus 4.7

Z.ai Releases GLM-5.1: 754B Model Tops SWE-Bench Pro

代码智能体从「偶尔有效」变成「基本可用」，有一个特定的时间节点。Django联合创始人Simon Willison说，那是2025年11月。这是他在PyCon US 2026用五分钟闪电演讲总结过去六个月的结论。

30秒摘要

2025年11月拐点 → RLVR推动代码智能体飞跃 → OpenClaw爆红 → 本地模型逆袭 → Qwen击败Opus 4.7

11月到底发生了什么？

2025年11月是LLM历史上特殊的一个月。五个月里「最好的模型」换了五次，而且都集中在11月附近。从Claude Sonnet 4.5（9月）开始，再到GPT-5.1、Gemini 3、GPT-5.1 Codex Max、Claude Opus 4.5，Anthropic、OpenAI、Google轮番坐上头把交椅。

但真正的变化不在这里。Willison指出的核心转变是：代码智能体从「often-work（偶尔有效）」跨越到了「mostly-work（基本可用）」。以前让AI写代码，需要持续监督和反复修改。现在已经达到可以真正委托的水平了。

技术原因是RLVR（可验证奖励强化学习）。 OpenAI和Anthropic把2025年的大部分时间都投入到这里。逻辑很简单——代码有编译器这个客观的即时裁判（通过/失败）。直接用这个反馈信号来训练模型，在「有标准答案的问题」上性能就会大幅提升。代码恰好是RLVR的完美场景。

5次

2025年11月「最佳模型」易主次数

偶尔→基本

代码智能体可靠性转变

20.9GB

笔记本可运行的Qwen3.6大小

这到底改变了什么？

Willison把11月到1月称为「LLM精神症期间」。代码智能体突然开始好用，开发者们就陷入了各种野心勃勃的项目。Willison自己也做了个用Python实现JavaScript的micro-javascript项目。完全没人需要，但AI能做到这件事本身就让人兴奋。

2026年2月，OpenClaw爆红了。这是一个在自己设备上运行的开源个人AI助手，Mac Mini M4在全国各地断货。Drew Breunig的比喻很妙：「Mac Mini是你的Claw的水族馆」。不依赖云端、在自己服务器上养AI这个概念引发了广泛共鸣。

	2025年上半年（之前）	2025年11月以后（现在）
代码智能体可靠性	often-work（需要持续监督）	mostly-work（可以真正委托）
本地模型性能	明显不如云端模型	特定任务超越顶级云端模型
个人AI服务器	仅限技术人员（复杂配置）	OpenClaw让普通人也能上手
模型竞争格局	OpenAI一家独大	Anthropic、Google、中国模型三足鼎立

最令人震惊的是本地模型的表现。2026年4月，Willison用笔记本运行的Qwen3.6-35B-A3B画出了比Claude Opus 4.7更好的SVG图像。一个20.9GB的笔记本模型击败了顶级云端模型。中国Z.ai的GLM-5.1（754B参数，开放权重）在SWE-Bench Pro上拿到58.4%，超过了Claude Opus 4.6（57.3%）和GPT-5.4（57.7%）。

骑自行车的鹈鹕基准测试是什么？

这是Willison的非正式测试：「画一只骑自行车的鹈鹕SVG」。这个组合几乎不会出现在训练数据里，所以能测试真正的创意推理能力。看似玩笑，但测试结果与模型的实际实用性确实有很高的相关性。

核心整理：怎么开始

认真重新使用代码智能体
Claude Code、Cursor、GitHub Copilot——2025年11月以后可靠性真的不一样了。如果半年前试过放弃了，现在值得再试。从重复性任务、测试代码生成、重构开始委托。
开始本地模型实验
Ollama + Qwen3.6-35B可以在笔记本上运行。量化版是20.9GB，需要32GB以上内存。对于隐私敏感的工作特别有用。
不要固执于一个模型
五个月换了五次冠军。定期测试哪个模型更适合特定任务很重要。代码用Claude Code，图像用Gemini 3.1 Pro，智能体代码用GLM-5.1 API。
通过OpenRouter API使用GLM-5.1
754B参数本地运行太难（需要8x H200），但可以通过OpenRouter用API访问。目前智能体代码任务中最强的开源模型。
警惕LLM精神症
AI突然好用起来，很容易陷入过于野心勃勃的项目。先问「谁真的需要这个？」再动手。Willison自己也从中吸取了教训。