短短5个月内,估值从$5B跃升至$13B。这不是构建GPTClaude的公司,而是一家出售运行这些模型所需基础设施的初创公司。

Baseten的爆发并非偶然。AI成本结构中正在发生一种大多数团队尚未意识到的转变。

30秒摘要
直连OpenAI 推理成本暴增 开源模型成熟 推理层崛起 节省最多30%

模型越好,运输成本越成为战场

AI投资长期集中于模型开发。数十亿美元涌入OpenAIAnthropicxAI。但有一个鲜为人知的事实。

AI总成本的80-90%来自推理

模型训练成本仅占AI运营总成本的10-20%。其余80-90%来自实际运行模型的推理(inference)。每次用户发送查询都会产生成本。

2023年,推理占AI计算总量的1/3。到2026年已超过2/3。AI开始在实际服务中大规模应用。同时,AI推理成本自2023年以来已从每百万token $20暴跌至$0.07。问题是,大多数团队仍直连OpenAI和Anthropic等闭源API,支付着更高的价格。

开源模型的质量已大幅提升。Llama 3.3、Mistral、Qwen等模型在众多基准测试中已接近GPT-4水平,通过路由到开源模型可将成本降低高达30-50%。但自行实现这一点需要对接20个云服务、数十个模型以及自动路由逻辑,工程开销相当可观。

这正是Baseten切入的市场空白。

5个月营收增长3倍 — Baseten究竟做了什么

Baseten不拥有GPU。它连接了18家云服务商的87个全球集群,将推理请求路由到最具成本效益的选项。可以理解为"AI基础设施编排器"。

$200M→$600M
ARR,单季度增长3倍
1,900%
年营收增长率
10亿+
每日处理推理请求数

客户包括Cursor(AI编程编辑器)、Notion和Mercor。其中OpenEvidence是一家向全球数十万名医生实时提供AI医疗信息的初创公司,切换到Baseten后取得了具体成果。

78%
延迟降低(700ms → 160ms)
6x
部署速度提升
8x+
基础设施管理负担减少

"在Baseten上,一切都运行良好。我们投入底层基础设施的复杂性消失了。"

— Zachary Ziegler,OpenEvidence联合创始人 & CTO

不仅仅是节省成本,还吸收了工程负担。Baseten营收同比增长1,900%,2025年推理量增长了40倍。

直连闭源API经由推理层
模型选择锁定单一供应商20+云服务,含开源
Token成本固定定价可节省50%以上
延迟优化供应商控制多云自动路由
部署速度数小时至数天1小时内(OpenEvidence案例)
供应商锁定

如何排查团队AI成本的漏洞

即使你不打算使用Baseten,这个市场传递的信息也很清晰。如果你在生产环境中运行AI,现在就需要审查你的推理成本结构。

  1. 审查AI Token成本
    调出过去3个月的OpenAI/Anthropic账单,确认哪些模型花了多少钱。大多数团队会发现70-80%的成本集中在2-3种API调用类型上。
  2. 按任务分类模型层级
    并非所有任务都需要GPT-4或Claude Opus。简单分类、摘要和嵌入通常可以用较小的开源模型来处理。梳理每类任务实际需要的性能阈值。
  3. 测试开源替代方案的质量
    Together AI、Modal Labs和Baseten都提供免费测试环境。用Llama 3.3、Mistral等开源模型运行你当前的API任务并比较结果。
  4. 计算成本-质量权衡
    如果质量相近,计算一下每年能节省多少。如果月AI成本超过$500,引入推理层在ROI上就开始合理。
  5. 开始渐进式迁移
    不要一次性改造整个系统。从成本占比最大、性能要求最低的1-2种API调用开始切换到开源。监控质量指标后再逐步扩大范围。

开源并非总是答案

对于医疗、金融、法律等受监管行业,多模态功能,或需要顶尖推理性能的场景,闭源API仍然占优。不要为了节省成本而牺牲质量。在迁移前务必用实际任务验证质量。