在 2022 年底,想要使用 GPT-4 级别的 AI,每 100 万 token 需要支付 20 美元。而现在,只需 0.40 美元即可搞定。短短两年内,价格暴跌了 50 倍。这不仅仅是一次简单的降价,更是一场改变了初创企业使用 AI 方式的结构性变革。

3秒速览
LLM 推理成本年降 10 倍 DeepSeek 引发的价格战 API 成本从每月 $5万 降至 $5千 初创企业准入门槛消失 AI 原生业务爆发

这是什么?

a16z 的 Guido Appenzeller 为这一现象起了一个名字 —— "LLMflation"(LLM 通胀)。其核心含义是:在相同性能标准下,LLM 的推理成本每年都在下降 10 倍。2021 年 11 月 GPT-3 发布时,每 100 万 token 的价格为 60 美元,而现在使用 Llama 3.2 3B 达到同等水平仅需 0.06 美元。三年内降幅达 1,000 倍。

Epoch AI 的分析则更为惊人。虽然不同基准测试的价格下降速度有所不同,但中位数每年下降 50 倍。仅看 2024 年 1 月之后的数据,价格下降的速度甚至达到了每年 200 倍。在处理 PhD 级别的科学问题 (GPQA) 时,达到 GPT-4 级性能的成本每年也在下降 40 倍。

1,000x
三年内同等性能成本降幅
50x/年
LLM 推理价格下降中位数速度
90~95%
DeepSeek 与 OpenAI 的价格差

为什么会这么快?其实有六大因素在同时发挥作用:GPU 性能提升、模型量化 (16-bit → 4-bit)、软件优化、更小更高效模型的出现、指令微调 (Instruction Tuning) 技术的进步,以及开源模型带来的价格竞争压力。其速度甚至远超摩尔定律时代的半导体。

而真正扣动扳机的是 DeepSeek。2025 年 1 月 DeepSeek R1 问世时,整个行业都震动了。因为它的成本比 OpenAI 和 Anthropic 低 90~95%,但性能却旗鼓相当。甚至一度导致英伟达 (Nvidia) 股价创下了史上最大的单日跌幅。关键在于,DeepSeek 在无法获得美国出口限制下的最新 H100 芯片的情况下,利用旧款 A100 芯片实现了这一壮举。

有什么不同?

看数据最直观。2025 年 8 月,OpenAI 在发布 GPT-5 时,定价甚至比 GPT-4o 还要便宜。TechCrunch 称之为“价格战的开始”。谷歌 (Google) 也将 Gemini Flash-Lite 的价格降至每 100 万 token 0.10 美元,Anthropic 则通过批处理 (Batch Processing) 选项进行应对。

2023 年初 (GPT-4 时代) 2026 年 3 月 (当前)
旗舰模型成本 $30~60 / 1M 输出 token $8~25 / 1M 输出 token (↓60~80%)
轻量化模型成本 $1~2 / 1M token $0.04~0.10 / 1M token
初创企业月 API 预算 $50,000 $3,000~5,000 (相同工作量)
提示词缓存 (Prompt Caching) 最高可节省 90% 输入成本
非高峰时段折扣 最高额外 75% 折扣 (DeepSeek)

即使是前沿 (Frontier) 级别的模型,价格竞争也异常激烈。对比一下目前主流模型的定价:

模型输入 ($/1M token)输出 ($/1M token)特点
DeepSeek V3$0.28$1.10性价比之王,非高峰期 75% 折扣
Gemini 2.5 Flash$0.30$2.50谷歌基础设施,响应极快
GPT-5 (基础版)$1.25$10.00比 GPT-4o 更便宜且性能更强
Claude Sonnet 4.6$3.00$15.00擅长编程与数据分析
Claude Opus 4.6$5.00$25.00顶级性能的旗舰选择

最便宜的模型 (DeepSeek V3) 与最贵的模型 (Claude Opus) 之间存在 20 倍以上的价差。如果算上像 Mistral Nemo 这样的超轻量模型,最低价与最高价的差距甚至超过了 1,000 倍。过去我们认为“好 AI = 贵 AI”,但现在已经进入了可以根据用途,直接用 0.04 美元的模型来解决问题的时代。

AWS 云革命的既视感

在 2010 年代,随着 AWS 不断降低云服务成本,诞生了一大批无法负担自建基础设施的初创企业。现在的 AI API 价格战正在扮演完全相同的角色。无论是拉各斯、圣保罗、雅加拉达还是班加罗尔的开发者,现在都能触及最前沿的 AI 技术。

上手指南: 如何优化 AI API 成本

  1. 按工作负载分类模型
    没必要所有任务都用 GPT-5。简单的分类任务交给轻量模型 ($0.04/M),摘要任务交给中级模型 ($0.30/M),只有复杂的推理才路由到旗舰模型 ($3~15/M)。
  2. 利用提示词缓存 (Prompt Caching)
    Anthropic 为缓存的输入提供最高 90% 的成本削减。如果你的系统提示词 (System Prompt) 是重复性的,请务必立即采用。
  3. 引入批处理 (Batch Processing)
    对于不需要实时响应的任务(如报告生成、数据分类等),使用批处理 API 可以获得 50% 的折扣。
  4. 考虑 API 聚合器 (Aggregator)
    使用 OpenRouter 或 LemonData 等多供应商平台,只需一个 API Key 即可在 400 多个模型间切换,额外成本仅在 0~10% 左右。
  5. 考虑开源模型自托管 (Self-hosting)
    DeepSeek V3 和 Llama 3.3 70B 的性能已达到 GPT-4 的 90~95%。如果你的流量很大,通过自托管可以节省 90% 以上的成本。

便宜并不代表绝对好用

DeepSeek 目前正通过补贴部分 API 价格来维持地位——这是一种利用风险资本换取市场份额的策略。你必须考虑数据隐私、合规性以及地缘政治风险。此外,除了直接的模型成本,如果算上基础设施、监控和合规成本,实际支出可能会增加 5~10 倍。

[{"q":"如果价格持续下跌,AI 初创企业的利润率会如何变化?","a":"看似矛盾,但 API 成本下降实际上会提高利润率。API 调用费是 AI 初创企业的核心成本,如果该项成本降低 80%,即使产品售价不变,盈利能力也会大幅提升。不过,随着竞争加剧,产品定价也会面临下行压力,因此提供差异化价值变得更加重要。"},{"q":"使用像 DeepSeek 这样便宜的模型在生产环境中使用没问题吗?","a":"从性能上看是完全可行的。但你必须考虑数据是否经过中国服务器、企业级 SLA 是否比大厂稍弱,以及地缘政治风险。建议先在非敏感任务中尝试,再逐步过渡到核心业务。"},{"q":"自托管开源模型到底能省多少钱?","a":"这取决于流量规模。如果每月 API 费用在 3,00 0 美元以下,使用 API 更经济。如果超过 10,000 美元,自托管可以节省 90% 以上,但需要投入 GPU 基础设施管理人员和初始搭建成本。作为折中方案,使用 Groq 或 Together AI 等推理平台也是不错的选择。"},{"q":"价格战结束后,价格会重新涨回来吗?","a":"短期内,某些厂商的补贴性定价(尤其是 DeepSeek)可能会回升。但结构性的下降——包括 GPU 效率提升、模型轻量化、开源竞争——是一个不可逆的趋势。a16z 分析认为,这种下降速度甚至比摩尔定律还要快。"}]