同样的工作,两家公司收到的AI账单开始正好相差两倍

不是因为更多使用昂贵模型,而是什么都让一个模型干。根据Augment Code 2026年4月公开的成本模型,200次调用的编码会话单次费用:仅Opus 4.6是$2.02,同样工作分给4个角色后是$0.98。51%的差距不来自模型价格,而来自模型部署。

只用一个模型干活有什么问题?

单一模型同时造成两种失败。在简单任务上花费过多算力(浪费钱),在复杂任务上推理能力不足(浪费质量)。同一个模型同时在两方面失败是核心问题。

看具体的成本差异。Anthropic 2026年4月官方价格基准。

模型 输入 ($/M tokens) 输出 ($/M tokens) 主要用途
Opus 4.6 $5.00 $25.00 复杂推理、架构决策
Sonnet 4.6 $3.00 $15.00 常规代码生成、多文件操作
Haiku 4.5 $1.00 $5.00 文件搜索、简单编辑、lint

Opus和Haiku在输入5倍、输出5倍差距。然而编码代理发出的200次调用中,超过一半是grep、目录浏览、import追踪这类模式匹配任务。把这些交给Opus,等于用法拉利去跑超市采购。

据DEV Community分析,编码代理使用的token中70%是浪费 — 过多文件读取、重复探索、冗长工具输出。仅把这70%区域转给Haiku,就能砍掉5倍成本。

那么「4角色」具体是什么?

进入2026年,AnthropicOpenAI、Augment Code、CrewAI同时采纳的模式就是4角色路由。把编码代理的所有任务分为4种角色,每种角色配不同模型。

  1. Coordinator (协调者) — Opus 4.6
    把需求拆解成工作单元,协调下游代理。需要最深推理力的位置。这里拆错了,所有下游任务都会崩。SWE-bench Verified 80.84%,MCP Atlas工具使用基准第1名。
  2. Implementor (执行者) — Sonnet 4.6
    实际代码生成、多文件修改、测试编写。每次代码生成任务比Opus便宜67%输出token。SWE-bench 79.6%,与Opus仅差1.2分。
  3. Navigator (探索者) — Haiku 4.5
    文件搜索、grep、符号解析、模板代码生成。比Opus输入5倍、输出5倍便宜。在模式匹配任务上与Sonnet几乎没有质量差异。
  4. Reviewer (审查者) — GPT-5.2
    异步代码审查、安全分析。更多工具调用 → 更深入分析。DryRun Security报告中Codex (GPT-5.2)安全问题-1,Claude+4。审查不是看速度而是看彻底性的领域。

那实际成本到底差多少?

Augment Code公开的200次调用标准会话模拟。同一工作两种方式处理时的差异。

任务类型 频率 单一Opus 4角色路由
架构规划 1次 $0.140 $0.140 (Opus)
复杂实现 3次 $0.780 $0.468 (Sonnet)
快速编辑 8次 $0.420 $0.084 (Haiku)
代码审查 4次 $0.300 $0.060 (Haiku)
测试生成 4次 $0.380 $0.228 (Sonnet)
会话合计 20次 $2.02 $0.98 (51%↓)

最大节省来自快速编辑和代码审查领域。$0.72 → $0.14的减幅,占整体节省的56%。AWS Bedrock也通过Intelligent Prompt Routing报告了最高30%的节省,AnthropicOpenAI对异步任务还可叠加50%批量折扣。

Static·Dynamic·Hybrid — 该用哪种路由?

角色分配本身已经定下来,但「如何分配」的路由方式有3种共存。各自适合的场景不同。

方式 适合场景 额外延迟 设置难度
Static (预设规则) 角色固定的流水线 低 — 按agent指定模型
Dynamic (RouteLLM等) 同一角色内任务难度参差 50~200ms/调用 中 — 路由分类器训练
Hybrid (OpenAI模式) 规划者直接选执行模型 仅规划阶段 中 — 规划者+池

日调用量在500次以下时Static最高效。Dynamic路由的分类器运营成本会吃掉节省效果。Claude Code的sub-agents API、CrewAI的LLM实例模式都是Static方式,大多数1人/小团队从这里起步。

路由陷阱注意 — 为了最大化节省效果而把所有任务都丢给Haiku,会让重试爆增。Haiku结果重新让Sonnet/Opus校正的比例若超过20%,5倍价差就会崩溃。第一周监控各任务的错误率,超过阈值的任务再上推到上层模型。

核心总结:起步方法

  1. 把当前1周的token使用量按任务类型拆开
    从Claude Code、Cursor等工具的使用日志中,把任务分为5类(架构/实现/编辑/审查/测试)。看清楚token都花在哪里,才能看见路由ROI。
  2. 把出现频率最高的任务移到Haiku
    通常是文件探索、grep、lint。运营1周后测量Haiku结果可直接采纳的比例。80%以上就保持,不到就上推到Sonnet。
  3. Coordinator位置绝对不要降级
    这里拆错了下游代理就全白干。Opus在MCP Atlas评分上比Sonnet高15~19分就是这原因。只有需要快速迭代的原型阶段才能短暂降到Sonnet。
  4. 给代理设25次迭代上限
    大部分token浪费不是路由产生而是代理循环(同样尝试不断重复)。Aider、Cline、Claude Code都支持max-iterations参数。25次内解决不了的事,50次也解决不了。