短短5个月内,估值从$5B跃升至$13B。这不是构建GPT或Claude的公司,而是一家出售运行这些模型所需基础设施的初创公司。
Baseten的爆发并非偶然。AI成本结构中正在发生一种大多数团队尚未意识到的转变。
模型越好,运输成本越成为战场
AI投资长期集中于模型开发。数十亿美元涌入OpenAI、Anthropic和xAI。但有一个鲜为人知的事实。
AI总成本的80-90%来自推理
模型训练成本仅占AI运营总成本的10-20%。其余80-90%来自实际运行模型的推理(inference)。每次用户发送查询都会产生成本。
2023年,推理占AI计算总量的1/3。到2026年已超过2/3。AI开始在实际服务中大规模应用。同时,AI推理成本自2023年以来已从每百万token $20暴跌至$0.07。问题是,大多数团队仍直连OpenAI和Anthropic等闭源API,支付着更高的价格。
开源模型的质量已大幅提升。Llama 3.3、Mistral、Qwen等模型在众多基准测试中已接近GPT-4水平,通过路由到开源模型可将成本降低高达30-50%。但自行实现这一点需要对接20个云服务、数十个模型以及自动路由逻辑,工程开销相当可观。
这正是Baseten切入的市场空白。
5个月营收增长3倍 — Baseten究竟做了什么
Baseten不拥有GPU。它连接了18家云服务商的87个全球集群,将推理请求路由到最具成本效益的选项。可以理解为"AI基础设施编排器"。
客户包括Cursor(AI编程编辑器)、Notion和Mercor。其中OpenEvidence是一家向全球数十万名医生实时提供AI医疗信息的初创公司,切换到Baseten后取得了具体成果。
"在Baseten上,一切都运行良好。我们投入底层基础设施的复杂性消失了。"
— Zachary Ziegler,OpenEvidence联合创始人 & CTO
不仅仅是节省成本,还吸收了工程负担。Baseten营收同比增长1,900%,2025年推理量增长了40倍。
| 直连闭源API | 经由推理层 | |
|---|---|---|
| 模型选择 | 锁定单一供应商 | 20+云服务,含开源 |
| Token成本 | 固定定价 | 可节省50%以上 |
| 延迟优化 | 供应商控制 | 多云自动路由 |
| 部署速度 | 数小时至数天 | 1小时内(OpenEvidence案例) |
| 供应商锁定 | 高 | 低 |
如何排查团队AI成本的漏洞
即使你不打算使用Baseten,这个市场传递的信息也很清晰。如果你在生产环境中运行AI,现在就需要审查你的推理成本结构。
- 审查AI Token成本
调出过去3个月的OpenAI/Anthropic账单,确认哪些模型花了多少钱。大多数团队会发现70-80%的成本集中在2-3种API调用类型上。 - 按任务分类模型层级
并非所有任务都需要GPT-4或Claude Opus。简单分类、摘要和嵌入通常可以用较小的开源模型来处理。梳理每类任务实际需要的性能阈值。 - 测试开源替代方案的质量
Together AI、Modal Labs和Baseten都提供免费测试环境。用Llama 3.3、Mistral等开源模型运行你当前的API任务并比较结果。 - 计算成本-质量权衡
如果质量相近,计算一下每年能节省多少。如果月AI成本超过$500,引入推理层在ROI上就开始合理。 - 开始渐进式迁移
不要一次性改造整个系统。从成本占比最大、性能要求最低的1-2种API调用开始切换到开源。监控质量指标后再逐步扩大范围。
开源并非总是答案
对于医疗、金融、法律等受监管行业,多模态功能,或需要顶尖推理性能的场景,闭源API仍然占优。不要为了节省成本而牺牲质量。在迁移前务必用实际任务验证质量。




