morphllm.com

AIをモデル1つで全部やる時代は終わった — 4役割ルーティング公式 (Coordinator·Implementor·Navigator·Reviewer)

AIモデルルーティング、Coordinator Implementor Navigator Reviewer、マルチモデルワークフロー、Claude Opus Sonnet Haiku開発

Best AI Model for Coding Agents in 2026: A Routing Guide

The Real Cost of AI Coding in 2026

Claude API Pricing

同じ作業をする2つの会社のAI請求書が、ちょうど2倍差をつけ始めている。

高いモデルをたくさん使うからではなく、1つのモデルで全部やらせるからです。Augment Codeが2026年4月に公開したコストモデルによると、200コールのコーディングセッション1回はOpus 4.6単独で$2.02、同じ作業を4役割に分けると$0.98。51%の差が、モデル価格ではなくモデル配置から生まれているんです。

1モデルで全部やると、何が問題なんですか?

単一モデルは2種類の失敗を同時に起こします。単純なタスクには過剰な計算リソース(お金の無駄)、複雑なタスクには推論力不足(品質の無駄)。同じモデルが2方向に同時に失敗するのが核心です。

具体的なコスト差を見てみましょう。Anthropicの2026年4月公式価格基準です。

モデル	入力 ($/Mトークン)	出力 ($/Mトークン)	主な用途
Opus 4.6	$5.00	$25.00	複雑な推論、アーキテクチャ判断
Sonnet 4.6	$3.00	$15.00	一般コード生成、マルチファイル作業
Haiku 4.5	$1.00	$5.00	ファイル探索、簡単な編集、リント

OpusとHaikuは入力5倍、出力5倍の差。ところがコーディングエージェントが送る200コールの半分以上は、grep、ディレクトリ探索、import追跡などのパターンマッチング作業。これをOpusで処理するのは、フェラリでスーパーに行くのと同じです。

DEV Communityの分析では、コーディングエージェントが使うトークンの70%が無駄 — 過剰なファイル読み込み、繰り返し探索、冗長なツール出力。この70%領域をHaikuに移すだけで、5倍のコスト削減ができるんです。

では「4役割」って具体的に何ですか?

2026年に入ってAnthropic、OpenAI、Augment Code、CrewAIが同時に採用したパターンが4役割ルーティング。コーディングエージェントの全タスクを4種類の役割に分類し、役割ごとに違うモデルを割り当てます。

Coordinator(調整役) — Opus 4.6
要件をサブタスクに分解し、下位エージェントを調整。最も推論の深さが必要な役割。ここで間違えると下位タスクが全て破綻します。SWE-bench Verified 80.84%、MCP Atlasツール使用ベンチマーク1位。
Implementor(実装役) — Sonnet 4.6
実際のコード生成、マルチファイル編集、テスト作成。1回の生成あたり出力トークンがOpus比67%安い。SWE-bench 79.6%でOpusとの差はわずか1.2点。
Navigator(探索役) — Haiku 4.5
ファイル検索、grep、シンボル解決、ボイラープレート生成。Opus比で入力5倍・出力5倍安い。パターンマッチング作業ではSonnetとの品質差はほぼ計測不能。
Reviewer(レビュー役) — GPT-5.2
非同期コードレビュー、セキュリティ分析。ツール呼び出しが多い = 深い分析。DryRun Securityレポートでは Codex(GPT-5.2)はセキュリティ問題-1、Claudeは+4。レビューは速度より徹底さが重要な領域です。

実際のコスト差はどれくらい?

Augment Codeが公開した200コール標準セッションのシミュレーション。同じ作業を2つの方法で処理した時の差です。

タスク種別	頻度	単一Opus	4役割ルーティング
アーキテクチャ計画	1回	$0.140	$0.140 (Opus)
複雑な実装	3回	$0.780	$0.468 (Sonnet)
素早い編集	8回	$0.420	$0.084 (Haiku)
コードレビュー	4回	$0.300	$0.060 (Haiku)
テスト生成	4回	$0.380	$0.228 (Sonnet)
セッション合計	20回	$2.02	$0.98 (51%↓)

最大の削減は素早い編集とコードレビュー領域です。$0.72 → $0.14に減り、これが全削減量の56%を占めます。AWS BedrockのIntelligent Prompt Routingも最大30%削減を報告、AnthropicとOpenAIは非同期作業に50%バッチ割引まで上乗せできるんです。

Static·Dynamic·Hybrid — どのルーティングを選ぶべき?

役割分担は決まっても、「どう振り分けるか」を決めるルーティング方式は3種類が共存します。それぞれ適した状況が違います。

方式	適した場面	遅延追加	設定難易度
Static(事前ルール)	役割が固定されたパイプライン	なし	低 — agentごとにモデル指定
Dynamic(RouteLLM等)	同じ役割内でタスク難易度がばらつく	50〜200ms/コール	中 — ルーティング分類器の学習
Hybrid(OpenAIパターン)	プランナーが実行モデルも選ぶ	プランニング段階のみ	中 — プランナー + プール

1日の呼び出しが500回未満ならStaticが最も効率的。Dynamicルーティングは分類器の運用コストが削減効果を食いつぶします。Claude Codeのsub-agents API、CrewAIのLLMインスタンスパターンはどちらもStatic方式で、ほとんどの1人/小規模チームはここから始めます。

ルーティングの罠に注意 — 削減効果を最大化しようと全タスクをHaikuに送ると、リトライが爆発します。Haiku結果をSonnet/Opusで再修正する比率が20%を超えると、5倍の価格差が崩壊。最初の1週間は作業別エラー率をモニタし、閾値を超えたタスクだけ上位モデルに昇格させます。

核心だけ整理: 始め方

1週間のトークン使用量をタスク種別に分解する
Claude CodeやCursorのログから、5つの種類(アーキテクチャ/実装/編集/レビュー/テスト)に分類。どこにトークンが最も流れているかを見ないと、ルーティングのROIは見えません。
最も頻度が高いタスク種別をHaikuに移す
たいていはファイル探索・grep・lint。1週間運用してHaiku結果をそのまま受け入れられる比率を測定。80%以上ならそのまま、未満ならSonnetに昇格。
Coordinator席は絶対にダウングレードしない
ここで間違えると下位エージェントが全て無駄に動きます。OpusのMCP AtlasスコアがSonnetより15〜19点高いのはまさにこの差。素早い反復が必要なプロトタイプの時だけ一時的にSonnetに下げてもOK。
エージェントに反復上限25回を設定する
トークン無駄の大部分はルーティングではなくエージェントループ(同じ試行の繰り返し)から生まれます。Aider、Cline、Claude Code全てがmax-iterationsパラメータをサポート。25回で解けないなら50回でも解けません。

よくある質問

4役割ルーティングって、本当に4つのAPIキーを別々に管理する必要がありますか?

いいえ。AI Gateway(Vercel AI Gateway、OpenRouter、Portkeyなど)を使えば、単一エンドポイントで4つのモデルすべてを呼び出せます。各コールでモデル名だけ変えればOK。鍵管理・課金・観測を1ヶ所にまとめるのがゲートウェイの本質的な価値。すでにAPIを直接呼んでいるなら、ゲートウェイ導入が次のステップです。

Haikuに移した後で品質が落ちたらどうやって戻しますか?

最初の1週間は作業種別ごとの「リトライ率」をログに残してください。Haiku結果をそのまま受け入れずSonnet/Opusで再実行する比率が20%を超えるなら、その作業種別はSonnetをデフォルトに昇格。5倍の価格差 → 20%リトライ率が損益分岐点です。単純なgrepやディレクトリ探索はほぼ5%未満で安全。

1人事業者にも4役割ルーティングって意味ありますか? 社員もいないのに。

むしろ1人事業者の方が大きいです。1人の作業量は少なくても、ツール代は本人負担。月$200〜$500の請求書が$100〜$250に半分になれば、その差額がそのまま利益。Pieter LevelsのようにLLMコストまで公開する1人運営者の多くがマルチモデルルーティングを使っています。

新しいモデルが出るたびにルーティング規則を作り直しますか?

半年に1回で十分です。モデル市場は速く動きますが、「役割分担」自体は安定しています — Coordinatorは常に最も高い推論モデル、Navigatorは常に最も安いモデル。変わるのはその席に入るモデルIDだけ。四半期ごとに価格ページを見て、マッピングを更新するだけでOK。

Opus 1モデルだけ使う方が直感的なのに、4個に分けると運用が複雑になりませんか?

純粋な呼び出し面では単一モデルがシンプルですが、実際の運用複雑度は「失敗モード」で分かれます。単一Opusは素早い編集でも高いトークンを使い、単一Haikuはアーキテクチャで誤った分解結果を作る。2つの失敗が同時に起きるとデバッグが難しい。4役割ルーティングは失敗位置をモデル単位で隔離する効果があります。