LLM API 가격 전쟁으로 주요 AI 모델 가격이 80% 이상 폭락한 시장 상황을 나타내는 배너 이미지

siliconcanals.com

LLM 价格暴跌 80% —— AI API 价格战如何重塑初创企业经济学

LLMflation、DeepSeek价格战、AI API成本优化、提示缓存、模型路由商业

LLM inference prices have fallen rapidly but unequally across tasks

Welcome to LLMflation - LLM inference cost is going down fast

China's DeepSeek triggers global AI price war as tech giants slash API costs

在 2022 年底，想要使用 GPT-4 级别的 AI，每 100 万 token 需要支付 20 美元。而现在，只需 0.40 美元即可搞定。短短两年内，价格暴跌了 50 倍。这不仅仅是一次简单的降价，更是一场改变了初创企业使用 AI 方式的结构性变革。

3秒速览

LLM 推理成本年降 10 倍 → DeepSeek 引发的价格战 → API 成本从每月 $5万降至 $5千 → 初创企业准入门槛消失 → AI 原生业务爆发

这是什么?

a16z 的 Guido Appenzeller 为这一现象起了一个名字 —— "LLMflation"（LLM 通胀）。其核心含义是：在相同性能标准下，LLM 的推理成本每年都在下降 10 倍。2021 年 11 月 GPT-3 发布时，每 100 万 token 的价格为 60 美元，而现在使用 Llama 3.2 3B 达到同等水平仅需 0.06 美元。三年内降幅达 1,000 倍。

Epoch AI 的分析则更为惊人。虽然不同基准测试的价格下降速度有所不同，但中位数每年下降 50 倍。仅看 2024 年 1 月之后的数据，价格下降的速度甚至达到了每年 200 倍。在处理 PhD 级别的科学问题 (GPQA) 时，达到 GPT-4 级性能的成本每年也在下降 40 倍。

1,000x

三年内同等性能成本降幅

50x/年

LLM 推理价格下降中位数速度

90~95%

DeepSeek 与 OpenAI 的价格差

为什么会这么快？其实有六大因素在同时发挥作用：GPU 性能提升、模型量化 (16-bit → 4-bit)、软件优化、更小更高效模型的出现、指令微调 (Instruction Tuning) 技术的进步，以及开源模型带来的价格竞争压力。其速度甚至远超摩尔定律时代的半导体。

而真正扣动扳机的是 DeepSeek。2025 年 1 月 DeepSeek R1 问世时，整个行业都震动了。因为它的成本比 OpenAI 和 Anthropic 低 90~95%，但性能却旗鼓相当。甚至一度导致英伟达 (Nvidia) 股价创下了史上最大的单日跌幅。关键在于，DeepSeek 在无法获得美国出口限制下的最新 H100 芯片的情况下，利用旧款 A100 芯片实现了这一壮举。

有什么不同?

看数据最直观。2025 年 8 月，OpenAI 在发布 GPT-5 时，定价甚至比 GPT-4o 还要便宜。TechCrunch 称之为“价格战的开始”。谷歌 (Google) 也将 Gemini Flash-Lite 的价格降至每 100 万 token 0.10 美元，Anthropic 则通过批处理 (Batch Processing) 选项进行应对。

	2023 年初 (GPT-4 时代)	2026 年 3 月 (当前)
旗舰模型成本	$30~60 / 1M 输出 token	$8~25 / 1M 输出 token (↓60~80%)
轻量化模型成本	$1~2 / 1M token	$0.04~0.10 / 1M token
初创企业月 API 预算	$50,000	$3,000~5,000 (相同工作量)
提示词缓存 (Prompt Caching)	无	最高可节省 90% 输入成本
非高峰时段折扣	无	最高额外 75% 折扣 (DeepSeek)

即使是前沿 (Frontier) 级别的模型，价格竞争也异常激烈。对比一下目前主流模型的定价：

模型	输入 ($/1M token)	输出 ($/1M token)	特点
DeepSeek V3	$0.28	$1.10	性价比之王，非高峰期 75% 折扣
Gemini 2.5 Flash	$0.30	$2.50	谷歌基础设施，响应极快
GPT-5 (基础版)	$1.25	$10.00	比 GPT-4o 更便宜且性能更强
Claude Sonnet 4.6	$3.00	$15.00	擅长编程与数据分析
Claude Opus 4.6	$5.00	$25.00	顶级性能的旗舰选择

最便宜的模型 (DeepSeek V3) 与最贵的模型 (Claude Opus) 之间存在 20 倍以上的价差。如果算上像 Mistral Nemo 这样的超轻量模型，最低价与最高价的差距甚至超过了 1,000 倍。过去我们认为“好 AI = 贵 AI”，但现在已经进入了可以根据用途，直接用 0.04 美元的模型来解决问题的时代。

AWS 云革命的既视感

在 2010 年代，随着 AWS 不断降低云服务成本，诞生了一大批无法负担自建基础设施的初创企业。现在的 AI API 价格战正在扮演完全相同的角色。无论是拉各斯、圣保罗、雅加拉达还是班加罗尔的开发者，现在都能触及最前沿的 AI 技术。

上手指南: 如何优化 AI API 成本

按工作负载分类模型
没必要所有任务都用 GPT-5。简单的分类任务交给轻量模型 ($0.04/M)，摘要任务交给中级模型 ($0.30/M)，只有复杂的推理才路由到旗舰模型 ($3~15/M)。
利用提示词缓存 (Prompt Caching)
Anthropic 为缓存的输入提供最高 90% 的成本削减。如果你的系统提示词 (System Prompt) 是重复性的，请务必立即采用。
引入批处理 (Batch Processing)
对于不需要实时响应的任务（如报告生成、数据分类等），使用批处理 API 可以获得 50% 的折扣。
考虑 API 聚合器 (Aggregator)
使用 OpenRouter 或 LemonData 等多供应商平台，只需一个 API Key 即可在 400 多个模型间切换，额外成本仅在 0~10% 左右。
考虑开源模型自托管 (Self-hosting)
DeepSeek V3 和 Llama 3.3 70B 的性能已达到 GPT-4 的 90~95%。如果你的流量很大，通过自托管可以节省 90% 以上的成本。

便宜并不代表绝对好用

DeepSeek 目前正通过补贴部分 API 价格来维持地位——这是一种利用风险资本换取市场份额的策略。你必须考虑数据隐私、合规性以及地缘政治风险。此外，除了直接的模型成本，如果算上基础设施、监控和合规成本，实际支出可能会增加 5~10 倍。

🔗

深入了解

a16z — LLMflation: LLM 推理成本下降分析

详细分析年降 10 倍趋势的原因与数据研究

Epoch AI — LLM 推理价格趋势数据

针对不同基准测试价格下降速度的定量分析报告

TechCrunch — GPT-5 价格引发的价格战

分析 OpenAI 的激进定价策略及竞争对手反应

Silicon Canals — DeepSeek 引发的全球价格战

关于中国初创企业引发的价格战及大厂应对的详细报道

DEV — 2026 年 AI API 市场趋势

探讨 API 聚合器、批处理等新型成本优化策略

Swfte AI — 2026 AI API 价格趋势企业指南

从企业视角分析 AI API 成本及潜在隐藏开支

[{"q":"如果价格持续下跌，AI 初创企业的利润率会如何变化？","a":"看似矛盾，但 API 成本下降实际上会提高利润率。API 调用费是 AI 初创企业的核心成本，如果该项成本降低 80%，即使产品售价不变，盈利能力也会大幅提升。不过，随着竞争加剧，产品定价也会面临下行压力，因此提供差异化价值变得更加重要。"},{"q":"使用像 DeepSeek 这样便宜的模型在生产环境中使用没问题吗？","a":"从性能上看是完全可行的。但你必须考虑数据是否经过中国服务器、企业级 SLA 是否比大厂稍弱，以及地缘政治风险。建议先在非敏感任务中尝试，再逐步过渡到核心业务。"},{"q":"自托管开源模型到底能省多少钱？","a":"这取决于流量规模。如果每月 API 费用在 3,00 0 美元以下，使用 API 更经济。如果超过 10,000 美元，自托管可以节省 90% 以上，但需要投入 GPU 基础设施管理人员和初始搭建成本。作为折中方案，使用 Groq 或 Together AI 等推理平台也是不错的选择。"},{"q":"价格战结束后，价格会重新涨回来吗？","a":"短期内，某些厂商的补贴性定价（尤其是 DeepSeek）可能会回升。但结构性的下降——包括 GPU 效率提升、模型轻量化、开源竞争——是一个不可逆的趋势。a16z 分析认为，这种下降速度甚至比摩尔定律还要快。"}]