在 2022 年底,想要使用 GPT-4 级别的 AI,每 100 万 token 需要支付 20 美元。而现在,只需 0.40 美元即可搞定。短短两年内,价格暴跌了 50 倍。这不仅仅是一次简单的降价,更是一场改变了初创企业使用 AI 方式的结构性变革。
这是什么?
a16z 的 Guido Appenzeller 为这一现象起了一个名字 —— "LLMflation"(LLM 通胀)。其核心含义是:在相同性能标准下,LLM 的推理成本每年都在下降 10 倍。2021 年 11 月 GPT-3 发布时,每 100 万 token 的价格为 60 美元,而现在使用 Llama 3.2 3B 达到同等水平仅需 0.06 美元。三年内降幅达 1,000 倍。
Epoch AI 的分析则更为惊人。虽然不同基准测试的价格下降速度有所不同,但中位数每年下降 50 倍。仅看 2024 年 1 月之后的数据,价格下降的速度甚至达到了每年 200 倍。在处理 PhD 级别的科学问题 (GPQA) 时,达到 GPT-4 级性能的成本每年也在下降 40 倍。
为什么会这么快?其实有六大因素在同时发挥作用:GPU 性能提升、模型量化 (16-bit → 4-bit)、软件优化、更小更高效模型的出现、指令微调 (Instruction Tuning) 技术的进步,以及开源模型带来的价格竞争压力。其速度甚至远超摩尔定律时代的半导体。
而真正扣动扳机的是 DeepSeek。2025 年 1 月 DeepSeek R1 问世时,整个行业都震动了。因为它的成本比 OpenAI 和 Anthropic 低 90~95%,但性能却旗鼓相当。甚至一度导致英伟达 (Nvidia) 股价创下了史上最大的单日跌幅。关键在于,DeepSeek 在无法获得美国出口限制下的最新 H100 芯片的情况下,利用旧款 A100 芯片实现了这一壮举。
有什么不同?
看数据最直观。2025 年 8 月,OpenAI 在发布 GPT-5 时,定价甚至比 GPT-4o 还要便宜。TechCrunch 称之为“价格战的开始”。谷歌 (Google) 也将 Gemini Flash-Lite 的价格降至每 100 万 token 0.10 美元,Anthropic 则通过批处理 (Batch Processing) 选项进行应对。
| 2023 年初 (GPT-4 时代) | 2026 年 3 月 (当前) | |
|---|---|---|
| 旗舰模型成本 | $30~60 / 1M 输出 token | $8~25 / 1M 输出 token (↓60~80%) |
| 轻量化模型成本 | $1~2 / 1M token | $0.04~0.10 / 1M token |
| 初创企业月 API 预算 | $50,000 | $3,000~5,000 (相同工作量) |
| 提示词缓存 (Prompt Caching) | 无 | 最高可节省 90% 输入成本 |
| 非高峰时段折扣 | 无 | 最高额外 75% 折扣 (DeepSeek) |
即使是前沿 (Frontier) 级别的模型,价格竞争也异常激烈。对比一下目前主流模型的定价:
| 模型 | 输入 ($/1M token) | 输出 ($/1M token) | 特点 |
|---|---|---|---|
| DeepSeek V3 | $0.28 | $1.10 | 性价比之王,非高峰期 75% 折扣 |
| Gemini 2.5 Flash | $0.30 | $2.50 | 谷歌基础设施,响应极快 |
| GPT-5 (基础版) | $1.25 | $10.00 | 比 GPT-4o 更便宜且性能更强 |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 擅长编程与数据分析 |
| Claude Opus 4.6 | $5.00 | $25.00 | 顶级性能的旗舰选择 |
最便宜的模型 (DeepSeek V3) 与最贵的模型 (Claude Opus) 之间存在 20 倍以上的价差。如果算上像 Mistral Nemo 这样的超轻量模型,最低价与最高价的差距甚至超过了 1,000 倍。过去我们认为“好 AI = 贵 AI”,但现在已经进入了可以根据用途,直接用 0.04 美元的模型来解决问题的时代。
AWS 云革命的既视感
在 2010 年代,随着 AWS 不断降低云服务成本,诞生了一大批无法负担自建基础设施的初创企业。现在的 AI API 价格战正在扮演完全相同的角色。无论是拉各斯、圣保罗、雅加拉达还是班加罗尔的开发者,现在都能触及最前沿的 AI 技术。
上手指南: 如何优化 AI API 成本
- 按工作负载分类模型
没必要所有任务都用 GPT-5。简单的分类任务交给轻量模型 ($0.04/M),摘要任务交给中级模型 ($0.30/M),只有复杂的推理才路由到旗舰模型 ($3~15/M)。 - 利用提示词缓存 (Prompt Caching)
Anthropic 为缓存的输入提供最高 90% 的成本削减。如果你的系统提示词 (System Prompt) 是重复性的,请务必立即采用。 - 引入批处理 (Batch Processing)
对于不需要实时响应的任务(如报告生成、数据分类等),使用批处理 API 可以获得 50% 的折扣。 - 考虑 API 聚合器 (Aggregator)
使用 OpenRouter 或 LemonData 等多供应商平台,只需一个 API Key 即可在 400 多个模型间切换,额外成本仅在 0~10% 左右。 - 考虑开源模型自托管 (Self-hosting)
DeepSeek V3 和 Llama 3.3 70B 的性能已达到 GPT-4 的 90~95%。如果你的流量很大,通过自托管可以节省 90% 以上的成本。
便宜并不代表绝对好用
DeepSeek 目前正通过补贴部分 API 价格来维持地位——这是一种利用风险资本换取市场份额的策略。你必须考虑数据隐私、合规性以及地缘政治风险。此外,除了直接的模型成本,如果算上基础设施、监控和合规成本,实际支出可能会增加 5~10 倍。



