Simon Willison의 PyCon US 2026 라이트닝 토크 슬라이드 - 지난 6개월 LLM 변화

static.simonwillison.net

코딩 에이전트가 '되기' 시작한 날 — 2025년 11월 변곡점과 로컬 모델의 반란

코딩 에이전트, 로컬 LLM, RLVR, Qwen3.6, GLM-5.1, 2025년 11월 변곡점AI 워크플로우

The last six months in LLMs in five minutes

Qwen3.6-35B-A3B on my laptop drew me a better pelican than Claude Opus 4.7

Z.ai Releases GLM-5.1: 754B Model Tops SWE-Bench Pro

코딩 에이전트가 "가끔 작동"에서 "대체로 작동"으로 넘어간 날이 있어요. Simon Willison(Django 공동 창시자)은 그게 2025년 11월이었다고 했어요. PyCon US 2026에서 5분짜리 라이트닝 토크로 지난 6개월을 정리한 그의 말이에요.

3초 요약

2025년 11월 변곡점 → RLVR로 코딩 에이전트 도약 → OpenClaw 폭발 → 로컬 모델 반란 → Qwen이 Opus를 이겼다

11월에 도대체 뭔 일이 있었던 건데?

2025년 11월은 LLM 역사에서 특별한 달이에요. 5개월 동안 "가장 좋은 모델"이 5번 바뀌었는데, 전부 11월에 집중됐어요. Claude Sonnet 4.5(9월)로 시작해서 GPT-5.1, Gemini 3, GPT-5.1 Codex Max, Claude Opus 4.5 순서로 왕좌가 계속 바뀌었어요. Anthropic, OpenAI, Google이 돌아가며 서로를 밟는 구도였죠.

근데 이게 단순히 "누가 더 좋은 모델을 냈냐"의 문제가 아니에요. Willison이 지목한 진짜 변화는 코딩 에이전트가 "often-work"에서 "mostly-work"으로 넘어간 것이에요. 예전에는 AI에게 코딩을 시키면 뭔가 만들어내긴 해도 계속 수정해야 했어요. 이제는 "일단 맡겨도 되는" 수준이 됐다는 거예요.

기술적 원인은 RLVR(Reinforcement Learning from Verifiable Rewards)이에요. OpenAI와 Anthropic이 2025년 대부분을 여기에 투자했어요. 코드를 쓰면 컴파일러가 통과/실패를 즉각 판정하잖아요? 그 피드백으로 모델을 직접 훈련시켜서 "정답이 있는 문제"에서 성능이 극적으로 올라간 거예요. 코딩이 딱 그 케이스였어요.

5번

2025년 11월 "최고 모델" 교체 횟수

often→mostly

코딩 에이전트 신뢰도 전환

20.9GB

노트북에서 돌아가는 Qwen3.6 크기

그래서 내 일이 어떻게 달라지는 건데?

Willison은 11~1월을 "LLM psychosis 기간"이라고 불러요. 코딩 에이전트가 갑자기 잘 돌아가기 시작하니까, 그 흥분으로 온갖 야심찬 프로젝트에 착수하는 현상이 생겼어요. Willison 본인도 Python으로 JavaScript를 구현하는 micro-javascript 프로젝트를 만들었대요. 아무도 필요로 하지 않는 것이지만, AI가 해낸다는 사실 자체가 짜릿하니까요.

2026년 2월에는 OpenClaw가 폭발했어요. "개인용 AI 어시스턴트"를 자기 기기에서 돌리는 오픈소스 프로젝트인데, Mac Mini M4가 전국에서 품절될 만큼 수요가 몰렸어요. Drew Breunig의 표현이 인상적이에요 — "Mac Mini는 당신의 Claw를 위한 수족관"이라고요. 클라우드에 종속되지 않고 내 서버에서 AI를 키운다는 개념이 공명을 얻은 거예요.

	2025년 상반기 (이전)	2025년 11월 이후 (지금)
코딩 에이전트 신뢰도	often-work (가끔 작동)	mostly-work (대체로 작동)
로컬 모델 성능	클라우드 대비 현저히 낮음	특정 작업에서 클라우드 최고급 추월
개인 AI 서버	기술자 전용 (복잡한 설치)	OpenClaw로 일반인도 접근 가능
모델 경쟁 구도	OpenAI 독주	Anthropic, Google, 중국 모델 각축

가장 충격적인 건 로컬 모델의 성능이에요. 2026년 4월, Willison이 노트북에서 돌린 Qwen3.6-35B-A3B가 Anthropic의 Claude Opus 4.7보다 나은 SVG 그림을 그렸어요. 20.9GB짜리 노트북 모델이 클라우드 최고급 모델을 이긴 거예요. 중국의 Z.ai가 출시한 GLM-5.1(754B 파라미터)은 SWE-Bench Pro에서 Claude Opus 4.6(57.3%)과 GPT-5.4(57.7%)를 모두 제치고 58.4%를 기록했고요.

펠리칸 자전거 벤치마크란?

Simon Willison이 만든 비공식 테스트예요. "펠리칸이 자전거를 타는 SVG를 그려줘" — AI가 학습한 적 없을 법한 조합으로 창의적 추론 능력을 테스트해요. 농담처럼 보이지만, 그 결과와 모델의 실제 유용성 사이에 꽤 높은 상관관계가 있었다고요.

핵심만 정리: 시작하는 법

Willison의 관찰에서 실천할 수 있는 것들을 정리했어요.

코딩 에이전트를 진지하게 다시 써보기
Claude Code, Cursor, GitHub Copilot — 이제 "가끔 쓰면 되는 도구"가 아니에요. 2025년 11월 이후 신뢰도가 달라졌어요. 반복 작업, 테스트 코드 작성, 리팩토링부터 에이전트에 위임해보세요.
로컬 모델 실험 시작
Ollama 또는 LM Studio + Qwen3.6-35B 조합으로 노트북에서 돌릴 수 있어요. 양자화 버전이 20.9GB이므로 32GB 이상 RAM이 있어야 쾌적해요. 프라이버시가 중요한 작업에 특히 유용해요.
모델 전쟁은 현재진행형 — 하나에 고집하지 말기
5개월에 5번 왕좌가 바뀌었어요. 특정 작업에 어떤 모델이 잘 맞는지 주기적으로 테스트하는 습관이 중요해요. 코딩은 Claude Code, 이미지는 Gemini 3.1 Pro, 에이전틱 코딩은 GLM-5.1 API 식으로 용도별로 분리하는 게 현명해요.
GLM-5.1은 OpenRouter API로 접근 가능
754B 파라미터라 로컬 실행은 어렵지만(8x H200 필요), OpenRouter를 통해 API로 쓸 수 있어요. SWE-Bench Pro 1위 오픈소스 모델로, 에이전틱 코딩 작업에 강해요.
LLM psychosis 조심하기
AI가 갑자기 잘 돌아가면 과도하게 야심찬 프로젝트에 빠지기 쉬워요. 실제 수요가 있는 문제인지 먼저 확인하고, 작은 범위부터 시작하세요. Willison 본인도 그렇게 반성했어요.