Simon Willison의 PyCon US 2026 라이트닝 토크 슬라이드 - 지난 6개월 LLM 변화

static.simonwillison.net

コーディングエージェントが『動く』ようになった日 — 2025年11月の転換点とローカルモデルの逆転

コーディングエージェント, ローカルLLM, RLVR, Qwen3.6, GLM-5.1, 2025年11月転換点開発

The last six months in LLMs in five minutes

Qwen3.6-35B-A3B on my laptop drew me a better pelican than Claude Opus 4.7

Z.ai Releases GLM-5.1: 754B Model Tops SWE-Bench Pro

コーディングエージェントが「たまに動く」から「ほぼ動く」に変わった転換点がありました。DjangoコアコントリビューターのSimon Willisonは、それが2025年11月だったと言っています。PyCon US 2026で行った5分間のライトニングトークで、この6か月を振り返った内容がその答えです。

30秒まとめ

2025年11月転換点 → RLVRでエージェント躍進 → OpenClaw爆発的成長 → ローカルモデル逆転 → QwenがOpus 4.7を超えた

11月に何が起きたんですか?

2025年11月はLLM史上特別な月でした。5か月間で「最高のモデル」が5回交代しましたが、その変動が全て11月に集中していたんです。 Claude Sonnet 4.5（9月）から始まり、GPT-5.1、Gemini 3、GPT-5.1 Codex Max、Claude Opus 4.5と、Anthropic・OpenAI・Googleが交互にトップを入れ替え続けました。

でも本当の変化はそこじゃないんです。Willisonが指摘する核心は、コーディングエージェントが「often-work（たまに動く）」から「mostly-work（ほぼ動く）」に転換したことです。以前はAIにコードを書かせても、常に監視して修正し続ける必要がありました。今は本当に任せられる水準になったということです。

技術的な原因はRLVR（Reinforcement Learning from Verifiable Rewards）です。 OpenAIとAnthropicは2025年の大部分をここに投資しました。コードはコンパイラが即座に合否を判定してくれますよね。その自動フィードバックで直接モデルを訓練することで、「答えが検証できる問題」で性能が劇的に向上したんです。

5回

2025年11月「最高モデル」交代回数

often→mostly

コーディングエージェント信頼度の転換

20.9GB

ノートPCで動くQwen3.6のサイズ

実際に何が変わったんですか?

Willisonは11月〜1月を「LLM psychosis期間」と呼んでいます。コーディングエージェントが急に動き始めたことで、過度に野心的なプロジェクトに着手する現象が起きたんです。Willison自身もPythonでJavaScriptを実装するmicro-javascriptプロジェクトを作りました。誰も必要としないものですが、AIができるという事実自体が興奮させてくれるんですよね。

2026年2月にはOpenClawが爆発的に広まりました。自分のデバイスで動かすオープンソースの個人用AIアシスタントです。Mac Mini M4が全国で品切れになるほどの需要が殺到しました。Drew Breunigの表現が印象的でした — 「Mac MiniはあなたのClawのための水族館」クラウドに依存せず、自分のサーバーでAIを育てるという概念が共感を呼んだんです。

	2025年上半期（以前）	2025年11月以降（現在）
コーディングエージェント信頼度	often-work（監視が必要）	mostly-work（本当に任せられる）
ローカルモデル性能	クラウドモデルに大きく劣る	特定タスクでクラウド最上位を超える
個人AIサーバー	技術者専用（複雑なセットアップ）	OpenClawで一般人も利用可能
モデル競争構図	OpenAI独走	Anthropic、Google、中国モデルが拮抗

最も驚いたのはローカルモデルの進化です。2026年4月、WillisonがノートPCで動かしたQwen3.6-35B-A3BがAnthropicのClaude Opus 4.7より優れたSVG画像を描いたんです。 20.9GBのノートPCモデルがクラウド最上位モデルを超えたんです。中国Z.aiのGLM-5.1（754Bパラメータ、オープンウェイト）はSWE-Bench Proで58.4%を達成し、Claude Opus 4.6（57.3%）もGPT-5.4（57.7%）も上回りました。

ペリカン自転車ベンチマークとは？

Willisonが作った非公式テストです。「ペリカンが自転車に乗っているSVGを描いて」— モデルがほぼ学習していないはずの組み合わせで創造的推論能力を測るんです。冗談のように見えますが、その結果とモデルの実際の有用性には相当高い相関があったそうです。

核心まとめ：始め方

コーディングエージェントを真剣に使い直す
Claude Code、Cursor、GitHub Copilot — 2025年11月以降、信頼度が本当に変わりました。半年前に試して諦めた方は、もう一度試す価値があります。繰り返し作業、テストコード生成、リファクタリングから委ねてみてください。
ローカルモデルの実験を始める
Ollama + Qwen3.6-35B の組み合わせでノートPCで動かせます。量子化版は20.9GBなので32GB以上のRAMが必要です。プライバシーが重要な作業に特に有効です。
一つのモデルに固執しない
5か月で5回トップが変わりました。定期的にテストする習慣が大切です。コーディングはClaude Code、画像はGemini 3.1 Pro、エージェンティックコーディングはGLM-5.1 APIというように用途別に分けるのが賢明です。
GLM-5.1はOpenRouter APIで利用可能
754Bパラメータなのでローカル実行は難しいですが（8x H200が必要）、OpenRouter経由でAPIとして使えます。エージェンティックコーディング作業での現在最強のオープンソースモデルです。
LLM psychosisに注意
AIが急に動き出すと、過度に野心的なプロジェクトに没頭しがちです。「実際に誰が、なぜ必要とするのか」を先に確認してから始めましょう。Willison自身もそう反省しています。