같은 코딩 작업에 한 회사는 $2.02를, 다른 회사는 $0.98을 냈어요. 더 싼 모델을 써서가 아니에요. 한쪽은 모든 일을 한 모델에게 다 시켰고, 다른 한쪽은 일을 네 명에게 나눴을 뿐이에요.
이걸 그냥 "비용 아끼는 팁"으로 읽으면 절반만 본 거예요. 진짜 포인트는 한 모델로 다 시키는 방식 자체가 동시에 두 번 실패한다는 데 있어요. 단순한 일에는 비싼 추론력을 낭비하고, 정작 어려운 일에는 그 추론력을 충분히 못 쓰거든요. 돈도 잃고 품질도 잃는 구조예요. 그래서 2026년 들어 Anthropic, OpenAI, Augment Code, CrewAI가 약속이라도 한 듯 같은 답으로 수렴했어요 — 모델 한 명이 아니라, 역할이 다른 모델 네 명으로 팀을 짜는 것.
"단일 모델 = 안전" 이라는 착각
한 모델만 쓰면 관리가 편하니까 안전하다고 느껴지죠. 그런데 코딩 에이전트가 실제로 무슨 일을 하는지 들여다보면 그 직관이 깨져요. 한 세션에서 모델이 보내는 200콜 중 절반 이상은 grep, 디렉토리 탐색, import 추적 같은 단순 패턴 매칭이에요. 진짜 추론이 필요한 일은 그 안에 한 줌이고요.
DEV Community 분석에 따르면 코딩 에이전트가 쓰는 토큰의 70%가 낭비예요 — 과도한 파일 읽기, 반복 탐색, 장황한 도구 출력. 이 70%를 가장 비싼 모델로 처리하는 게 "단일 모델"의 실체예요. 동네 마트 갈 때 페라리를 끄집어내는 셈이죠.
가격표를 보면 왜 이게 치명적인지 한눈에 들어와요. Anthropic의 2026년 4월 공식 가격이에요.
| 모델 | 입력 ($/M토큰) | 출력 ($/M토큰) | 잘하는 일 |
|---|---|---|---|
| Opus 4.6 | $5.00 | $25.00 | 복잡한 추론, 아키텍처 결정 |
| Sonnet 4.6 | $3.00 | $15.00 | 일반 코드 생성, 멀티파일 작업 |
| Haiku 4.5 | $1.00 | $5.00 | 파일 탐색, 단순 편집, 린팅 |
Opus와 Haiku는 입력도 출력도 5배 차이예요. 그 70% 낭비 영역을 Haiku로만 옮겨도 그 부분 비용이 1/5로 줄어요. 모델을 더 싸게 산 게 아니라, 맞는 일에 맞는 모델을 배치했을 뿐인데요.
역할 네 개에, 각자 다른 선수
4역할 라우팅의 핵심은 단순해요. 코딩 에이전트가 하는 모든 일을 네 가지 역할로 쪼개고, 역할마다 그 일을 가장 가성비 좋게 해내는 모델을 붙이는 거예요. 축구로 치면 골키퍼한테 스트라이커를 시키지 않는 거죠.
- Coordinator (조율자) — Opus 4.6
요구사항을 작업 단위로 쪼개고 하위 에이전트를 지휘해요. 가장 추론력이 깊어야 하는 자리예요. 여기서 잘못 쪼개면 아래 모든 작업이 통째로 헛돌기 때문에 절대 아끼면 안 되는 포지션. SWE-bench Verified 80.84%, MCP Atlas 도구 사용 벤치마크 1위. - Implementor (실행자) — Sonnet 4.6
실제 코드 생성, 멀티파일 수정, 테스트 작성. 코드 생성 1회당 출력 토큰이 Opus 대비 67% 저렴한데, SWE-bench는 79.6%로 Opus와 단 1.2점 차이예요. "거의 같은 실력에 3분의 1 값"이 이 자리의 정체. - Navigator (탐색자) — Haiku 4.5
파일 검색, grep, 심볼 해석, 보일러플레이트 생성. 앞서 말한 70% 낭비 영역의 주인공이에요. 패턴 매칭에서는 Sonnet과 품질 차이가 거의 없으면서 입력·출력 5배 저렴. 절감의 대부분이 여기서 나와요. - Reviewer (검토자) — GPT-5.2
비동기 코드 리뷰, 보안 분석. 검토는 속도가 아니라 철저함이 생명인 영역이라, 일부러 다른 계열의 모델을 섞어요. DryRun Security 보고서에서 같은 코드를 두고 Codex(GPT-5.2)는 보안 이슈를 -1, Claude는 +4로 잡았거든요 — 시각이 다른 두 번째 눈이 진짜 결함을 잡아냅니다.
그래서 청구서가 정확히 어디서 반토막 나는가
Augment Code가 공개한 200콜 표준 세션 시뮬레이션이에요. 똑같은 작업을 "단일 Opus"와 "4역할 라우팅"으로 각각 처리했을 때의 차이.
| 작업 유형 | 빈도 | 단일 Opus | 4역할 라우팅 |
|---|---|---|---|
| 아키텍처 계획 | 1회 | $0.140 | $0.140 (Opus) |
| 복잡한 구현 | 3회 | $0.780 | $0.468 (Sonnet) |
| 빠른 편집 | 8회 | $0.420 | $0.084 (Haiku) |
| 코드 리뷰 | 4회 | $0.300 | $0.060 (Haiku) |
| 테스트 생성 | 4회 | $0.380 | $0.228 (Sonnet) |
| 세션 합계 | 20회 | $2.02 | $0.98 (51%↓) |
표에서 한 줄만 기억한다면 빠른 편집과 코드 리뷰예요. 이 두 줄에서만 $0.72 → $0.14로 줄어드는데, 이게 전체 절감의 56%를 차지해요. 다시 말해 아키텍처 같은 비싼 일은 그대로 Opus에 두고, 양 많고 단순한 일만 아래로 내려보내는 것만으로 절반이 빠지는 거예요. 여기에 더해 AWS Bedrock은 Intelligent Prompt Routing으로 최대 30% 추가 절감을, Anthropic·OpenAI는 비동기 작업에 50% 배치 할인까지 얹을 수 있고요.
라우팅을 자동화하기 전에 알아둘 것
"역할을 어떻게 배분할지" 결정하는 방식엔 세 가지가 있어요. 그런데 결론부터 말하면, 대부분의 사람은 가장 단순한 걸 골라야 해요.
| 방식 | 적합한 경우 | 지연 추가 | 설정 난이도 |
|---|---|---|---|
| Static (사전 규칙) | 역할이 고정된 파이프라인 | 없음 | 낮음 — agent별 모델 지정 |
| Dynamic (RouteLLM 등) | 같은 역할 내 난이도가 들쭉날쭉 | 50~200ms/콜 | 중간 — 라우팅 분류기 학습 |
| Hybrid (OpenAI 패턴) | 플래너가 실행 모델까지 선택 | 플래닝 단계만 | 중간 — 플래너 + 풀 |
일일 호출이 500회 미만이면 고민할 것 없이 Static이에요. Dynamic의 분류기를 굴리는 비용이 오히려 절감 효과를 잡아먹거든요. Claude Code의 sub-agents API, CrewAI의 LLM 인스턴스 패턴이 전부 Static이고, 1인·소규모 팀은 거의 다 여기서 시작해요. 멋들어진 동적 라우터( RouteLLM 같은)는 호출량이 폭발한 뒤에 붙여도 늦지 않아요.
월요일 아침에 바로 할 수 있는 4단계
개념은 여기까지면 충분해요. 이제 진짜로 내 청구서를 줄이는 순서예요. 위에서 아래로 그대로 따라 하면 됩니다.
- 1주치 토큰을 작업 유형별로 쪼개라
Claude Code, Cursor 같은 도구의 사용 로그를 열어 작업을 5가지(아키텍처/구현/편집/리뷰/테스트)로 분류해요. 어디에 토큰이 가장 몰리는지 봐야 라우팅 ROI가 보여요. 대개는 편집·탐색에 몰려 있을 거예요 — 그게 좋은 신호예요. 옮길 게 많다는 뜻이니까요. - 빈도 1위 작업부터 Haiku로 내려라
보통 파일 탐색·grep·린팅이에요. 1주 굴리면서 Haiku 결과를 그대로 받아들일 수 있는 비율을 측정. 80% 이상이면 확정, 미만이면 Sonnet으로 한 칸 올려요. 한 번에 다 옮기지 말고 빈도 1위부터 하나씩. - Coordinator 자리는 절대 다운그레이드하지 마라
여기서 잘못 쪼개면 하위 에이전트가 다 헛돈다고 했죠. Opus의 MCP Atlas 점수가 Sonnet보다 15~19점 높은 게 그 값을 하는 자리예요. 빠른 반복이 필요한 프로토타입에서만 잠깐 Sonnet으로 내려도 됩니다. - 에이전트에 반복 상한선 25회를 걸어라
사실 가장 큰 토큰 낭비는 라우팅이 아니라 에이전트 루프예요 — 똑같은 시도를 끝없이 반복하는 것. Aider, Cline, Claude Code 모두 max-iterations 파라미터를 지원해요. 25회 안에 못 풀면 50회로도 못 풀어요. 상한을 걸고, 막히면 사람이 개입하는 게 더 싸고 빠릅니다.
정리하면 이래요. 단일 모델은 "안전"이 아니라 비싼 일과 싼 일을 구분하지 못하는 무지예요. 모델 네 명에게 각자 잘하는 일을 맡기는 것 — 그게 같은 결과물을 절반 값에 내는 2026년의 기본기예요.



.png)

