同样的工作,两家公司收到的AI账单开始正好相差两倍。
不是因为更多使用昂贵模型,而是什么都让一个模型干。根据Augment Code 2026年4月公开的成本模型,200次调用的编码会话单次费用:仅Opus 4.6是$2.02,同样工作分给4个角色后是$0.98。51%的差距不来自模型价格,而来自模型部署。
只用一个模型干活有什么问题?
单一模型同时造成两种失败。在简单任务上花费过多算力(浪费钱),在复杂任务上推理能力不足(浪费质量)。同一个模型同时在两方面失败是核心问题。
看具体的成本差异。Anthropic 2026年4月官方价格基准。
| 模型 | 输入 ($/M tokens) | 输出 ($/M tokens) | 主要用途 |
|---|---|---|---|
| Opus 4.6 | $5.00 | $25.00 | 复杂推理、架构决策 |
| Sonnet 4.6 | $3.00 | $15.00 | 常规代码生成、多文件操作 |
| Haiku 4.5 | $1.00 | $5.00 | 文件搜索、简单编辑、lint |
Opus和Haiku在输入5倍、输出5倍差距。然而编码代理发出的200次调用中,超过一半是grep、目录浏览、import追踪这类模式匹配任务。把这些交给Opus,等于用法拉利去跑超市采购。
据DEV Community分析,编码代理使用的token中70%是浪费 — 过多文件读取、重复探索、冗长工具输出。仅把这70%区域转给Haiku,就能砍掉5倍成本。
那么「4角色」具体是什么?
进入2026年,Anthropic、OpenAI、Augment Code、CrewAI同时采纳的模式就是4角色路由。把编码代理的所有任务分为4种角色,每种角色配不同模型。
- Coordinator (协调者) — Opus 4.6
把需求拆解成工作单元,协调下游代理。需要最深推理力的位置。这里拆错了,所有下游任务都会崩。SWE-bench Verified 80.84%,MCP Atlas工具使用基准第1名。 - Implementor (执行者) — Sonnet 4.6
实际代码生成、多文件修改、测试编写。每次代码生成任务比Opus便宜67%输出token。SWE-bench 79.6%,与Opus仅差1.2分。 - Navigator (探索者) — Haiku 4.5
文件搜索、grep、符号解析、模板代码生成。比Opus输入5倍、输出5倍便宜。在模式匹配任务上与Sonnet几乎没有质量差异。 - Reviewer (审查者) — GPT-5.2
异步代码审查、安全分析。更多工具调用 → 更深入分析。DryRun Security报告中Codex (GPT-5.2)安全问题-1,Claude+4。审查不是看速度而是看彻底性的领域。
那实际成本到底差多少?
Augment Code公开的200次调用标准会话模拟。同一工作两种方式处理时的差异。
| 任务类型 | 频率 | 单一Opus | 4角色路由 |
|---|---|---|---|
| 架构规划 | 1次 | $0.140 | $0.140 (Opus) |
| 复杂实现 | 3次 | $0.780 | $0.468 (Sonnet) |
| 快速编辑 | 8次 | $0.420 | $0.084 (Haiku) |
| 代码审查 | 4次 | $0.300 | $0.060 (Haiku) |
| 测试生成 | 4次 | $0.380 | $0.228 (Sonnet) |
| 会话合计 | 20次 | $2.02 | $0.98 (51%↓) |
最大节省来自快速编辑和代码审查领域。$0.72 → $0.14的减幅,占整体节省的56%。AWS Bedrock也通过Intelligent Prompt Routing报告了最高30%的节省,Anthropic和OpenAI对异步任务还可叠加50%批量折扣。
Static·Dynamic·Hybrid — 该用哪种路由?
角色分配本身已经定下来,但「如何分配」的路由方式有3种共存。各自适合的场景不同。
| 方式 | 适合场景 | 额外延迟 | 设置难度 |
|---|---|---|---|
| Static (预设规则) | 角色固定的流水线 | 无 | 低 — 按agent指定模型 |
| Dynamic (RouteLLM等) | 同一角色内任务难度参差 | 50~200ms/调用 | 中 — 路由分类器训练 |
| Hybrid (OpenAI模式) | 规划者直接选执行模型 | 仅规划阶段 | 中 — 规划者+池 |
日调用量在500次以下时Static最高效。Dynamic路由的分类器运营成本会吃掉节省效果。Claude Code的sub-agents API、CrewAI的LLM实例模式都是Static方式,大多数1人/小团队从这里起步。
核心总结:起步方法
- 把当前1周的token使用量按任务类型拆开
从Claude Code、Cursor等工具的使用日志中,把任务分为5类(架构/实现/编辑/审查/测试)。看清楚token都花在哪里,才能看见路由ROI。 - 把出现频率最高的任务移到Haiku
通常是文件探索、grep、lint。运营1周后测量Haiku结果可直接采纳的比例。80%以上就保持,不到就上推到Sonnet。 - Coordinator位置绝对不要降级
这里拆错了下游代理就全白干。Opus在MCP Atlas评分上比Sonnet高15~19分就是这原因。只有需要快速迭代的原型阶段才能短暂降到Sonnet。 - 给代理设25次迭代上限
大部分token浪费不是路由产生而是代理循环(同样尝试不断重复)。Aider、Cline、Claude Code都支持max-iterations参数。25次内解决不了的事,50次也解决不了。




