같은 코딩 작업에 한 회사는 $2.02를, 다른 회사는 $0.98을 냈어요. 더 싼 모델을 써서가 아니에요. 한쪽은 모든 일을 한 모델에게 다 시켰고, 다른 한쪽은 일을 네 명에게 나눴을 뿐이에요.

이걸 그냥 "비용 아끼는 팁"으로 읽으면 절반만 본 거예요. 진짜 포인트는 한 모델로 다 시키는 방식 자체가 동시에 두 번 실패한다는 데 있어요. 단순한 일에는 비싼 추론력을 낭비하고, 정작 어려운 일에는 그 추론력을 충분히 못 쓰거든요. 돈도 잃고 품질도 잃는 구조예요. 그래서 2026년 들어 Anthropic, OpenAI, Augment Code, CrewAI가 약속이라도 한 듯 같은 답으로 수렴했어요 — 모델 한 명이 아니라, 역할이 다른 모델 네 명으로 팀을 짜는 것.

3초 요약
한 모델로 다 시키면 단순작업 과금 + 복잡작업 품질 둘 다 손해 4역할로 분담 (Coordinator·Implementor·Navigator·Reviewer) 같은 작업 비용 51%↓ + 품질은 유지

"단일 모델 = 안전" 이라는 착각

한 모델만 쓰면 관리가 편하니까 안전하다고 느껴지죠. 그런데 코딩 에이전트가 실제로 무슨 일을 하는지 들여다보면 그 직관이 깨져요. 한 세션에서 모델이 보내는 200콜 중 절반 이상은 grep, 디렉토리 탐색, import 추적 같은 단순 패턴 매칭이에요. 진짜 추론이 필요한 일은 그 안에 한 줌이고요.

DEV Community 분석에 따르면 코딩 에이전트가 쓰는 토큰의 70%가 낭비예요 — 과도한 파일 읽기, 반복 탐색, 장황한 도구 출력. 이 70%를 가장 비싼 모델로 처리하는 게 "단일 모델"의 실체예요. 동네 마트 갈 때 페라리를 끄집어내는 셈이죠.

가격표를 보면 왜 이게 치명적인지 한눈에 들어와요. Anthropic의 2026년 4월 공식 가격이에요.

모델 입력 ($/M토큰) 출력 ($/M토큰) 잘하는 일
Opus 4.6 $5.00 $25.00 복잡한 추론, 아키텍처 결정
Sonnet 4.6 $3.00 $15.00 일반 코드 생성, 멀티파일 작업
Haiku 4.5 $1.00 $5.00 파일 탐색, 단순 편집, 린팅

Opus와 Haiku는 입력도 출력도 5배 차이예요. 그 70% 낭비 영역을 Haiku로만 옮겨도 그 부분 비용이 1/5로 줄어요. 모델을 더 싸게 산 게 아니라, 맞는 일에 맞는 모델을 배치했을 뿐인데요.

역할 네 개에, 각자 다른 선수

4역할 라우팅의 핵심은 단순해요. 코딩 에이전트가 하는 모든 일을 네 가지 역할로 쪼개고, 역할마다 그 일을 가장 가성비 좋게 해내는 모델을 붙이는 거예요. 축구로 치면 골키퍼한테 스트라이커를 시키지 않는 거죠.

  1. Coordinator (조율자) — Opus 4.6
    요구사항을 작업 단위로 쪼개고 하위 에이전트를 지휘해요. 가장 추론력이 깊어야 하는 자리예요. 여기서 잘못 쪼개면 아래 모든 작업이 통째로 헛돌기 때문에 절대 아끼면 안 되는 포지션. SWE-bench Verified 80.84%, MCP Atlas 도구 사용 벤치마크 1위.
  2. Implementor (실행자) — Sonnet 4.6
    실제 코드 생성, 멀티파일 수정, 테스트 작성. 코드 생성 1회당 출력 토큰이 Opus 대비 67% 저렴한데, SWE-bench는 79.6%로 Opus와 단 1.2점 차이예요. "거의 같은 실력에 3분의 1 값"이 이 자리의 정체.
  3. Navigator (탐색자) — Haiku 4.5
    파일 검색, grep, 심볼 해석, 보일러플레이트 생성. 앞서 말한 70% 낭비 영역의 주인공이에요. 패턴 매칭에서는 Sonnet과 품질 차이가 거의 없으면서 입력·출력 5배 저렴. 절감의 대부분이 여기서 나와요.
  4. Reviewer (검토자) — GPT-5.2
    비동기 코드 리뷰, 보안 분석. 검토는 속도가 아니라 철저함이 생명인 영역이라, 일부러 다른 계열의 모델을 섞어요. DryRun Security 보고서에서 같은 코드를 두고 Codex(GPT-5.2)는 보안 이슈를 -1, Claude는 +4로 잡았거든요 — 시각이 다른 두 번째 눈이 진짜 결함을 잡아냅니다.

그래서 청구서가 정확히 어디서 반토막 나는가

Augment Code가 공개한 200콜 표준 세션 시뮬레이션이에요. 똑같은 작업을 "단일 Opus"와 "4역할 라우팅"으로 각각 처리했을 때의 차이.

작업 유형 빈도 단일 Opus 4역할 라우팅
아키텍처 계획 1회 $0.140 $0.140 (Opus)
복잡한 구현 3회 $0.780 $0.468 (Sonnet)
빠른 편집 8회 $0.420 $0.084 (Haiku)
코드 리뷰 4회 $0.300 $0.060 (Haiku)
테스트 생성 4회 $0.380 $0.228 (Sonnet)
세션 합계 20회 $2.02 $0.98 (51%↓)

표에서 한 줄만 기억한다면 빠른 편집과 코드 리뷰예요. 이 두 줄에서만 $0.72 → $0.14로 줄어드는데, 이게 전체 절감의 56%를 차지해요. 다시 말해 아키텍처 같은 비싼 일은 그대로 Opus에 두고, 양 많고 단순한 일만 아래로 내려보내는 것만으로 절반이 빠지는 거예요. 여기에 더해 AWS Bedrock은 Intelligent Prompt Routing으로 최대 30% 추가 절감을, Anthropic·OpenAI는 비동기 작업에 50% 배치 할인까지 얹을 수 있고요.

라우팅을 자동화하기 전에 알아둘 것

"역할을 어떻게 배분할지" 결정하는 방식엔 세 가지가 있어요. 그런데 결론부터 말하면, 대부분의 사람은 가장 단순한 걸 골라야 해요.

방식 적합한 경우 지연 추가 설정 난이도
Static (사전 규칙) 역할이 고정된 파이프라인 없음 낮음 — agent별 모델 지정
Dynamic (RouteLLM 등) 같은 역할 내 난이도가 들쭉날쭉 50~200ms/콜 중간 — 라우팅 분류기 학습
Hybrid (OpenAI 패턴) 플래너가 실행 모델까지 선택 플래닝 단계만 중간 — 플래너 + 풀

일일 호출이 500회 미만이면 고민할 것 없이 Static이에요. Dynamic의 분류기를 굴리는 비용이 오히려 절감 효과를 잡아먹거든요. Claude Code의 sub-agents API, CrewAI의 LLM 인스턴스 패턴이 전부 Static이고, 1인·소규모 팀은 거의 다 여기서 시작해요. 멋들어진 동적 라우터( RouteLLM 같은)는 호출량이 폭발한 뒤에 붙여도 늦지 않아요.

가장 흔한 실패: "그럼 다 Haiku로 보내면 되잖아" — 절감에 욕심내서 모든 작업을 Haiku로 몰면 재시도가 폭증해요. Haiku 결과를 Sonnet/Opus로 다시 교정하는 비율이 20%를 넘는 순간, 5배 가격차의 이점은 그대로 증발합니다. 첫 1주는 작업별 오류율을 모니터링하면서, 임계치를 넘는 작업만 상위 모델로 도로 올리세요.

월요일 아침에 바로 할 수 있는 4단계

개념은 여기까지면 충분해요. 이제 진짜로 내 청구서를 줄이는 순서예요. 위에서 아래로 그대로 따라 하면 됩니다.

  1. 1주치 토큰을 작업 유형별로 쪼개라
    Claude Code, Cursor 같은 도구의 사용 로그를 열어 작업을 5가지(아키텍처/구현/편집/리뷰/테스트)로 분류해요. 어디에 토큰이 가장 몰리는지 봐야 라우팅 ROI가 보여요. 대개는 편집·탐색에 몰려 있을 거예요 — 그게 좋은 신호예요. 옮길 게 많다는 뜻이니까요.
  2. 빈도 1위 작업부터 Haiku로 내려라
    보통 파일 탐색·grep·린팅이에요. 1주 굴리면서 Haiku 결과를 그대로 받아들일 수 있는 비율을 측정. 80% 이상이면 확정, 미만이면 Sonnet으로 한 칸 올려요. 한 번에 다 옮기지 말고 빈도 1위부터 하나씩.
  3. Coordinator 자리는 절대 다운그레이드하지 마라
    여기서 잘못 쪼개면 하위 에이전트가 다 헛돈다고 했죠. Opus의 MCP Atlas 점수가 Sonnet보다 15~19점 높은 게 그 값을 하는 자리예요. 빠른 반복이 필요한 프로토타입에서만 잠깐 Sonnet으로 내려도 됩니다.
  4. 에이전트에 반복 상한선 25회를 걸어라
    사실 가장 큰 토큰 낭비는 라우팅이 아니라 에이전트 루프예요 — 똑같은 시도를 끝없이 반복하는 것. Aider, Cline, Claude Code 모두 max-iterations 파라미터를 지원해요. 25회 안에 못 풀면 50회로도 못 풀어요. 상한을 걸고, 막히면 사람이 개입하는 게 더 싸고 빠릅니다.

정리하면 이래요. 단일 모델은 "안전"이 아니라 비싼 일과 싼 일을 구분하지 못하는 무지예요. 모델 네 명에게 각자 잘하는 일을 맡기는 것 — 그게 같은 결과물을 절반 값에 내는 2026년의 기본기예요.