说实话,2025年之前AI API费用就跟"免费"差不多。token单价那么便宜,简单分类也用GPT-5,摘要也用Opus,自我说服"性能好,当然要用这个"。但进入2026年,HBM内存涨价、能源税开征、合规成本叠加,API价格明显上涨。一位HN开发者自曝"跟成本较劲了两周",整个行业都开始形成共识:"补贴时代结束了"。

3点概要

涨价核心原因:HBM内存成本、能源税、合规义务同时发力,AI API价格上涨。

降本关键:仅靠模型分层(简单任务→低价模型,复杂任务→高价模型),就能节省60~80%成本。

实战策略:提示词精简、批量API、缓存、本地算力组合使用,可在不降低性能的前提下大幅降低成本。

这是什么?

虽然叫"精益工程(Lean Engineering)"这个响亮的名字,但核心很简单:别把昂贵的AI模型用在所有地方,选择适合任务的合适模型。

独立开发者David Vartanian坦言:"没有VC资金,用自己的积蓄创业,以为离浪费很远,但不是。每次都用最贵的模型已经成了习惯。" 这不是个例。2026年现在,前沿模型(GPT-5、Claude 4.5 Opus等)以输出token计算,每百万$15~$75。 而能处理同样任务的小型模型只需$0.05~$1。

成本感知测试:每天处理1000次聊天机器人对话(平均2K token),用GPT-5是月$1050,用Gemini 3 Flash只要月$12。差了整整87倍。

有什么不同?

以前(全押前沿模型)精益工程方式
模型选择所有任务用GPT-5/Opus按复杂度三级分层
月成本(聊天机器人1K/天)$1,050/月$12~$132/月
延迟800ms+(大模型特性)50~100ms(小模型)
吞吐量~15 tok/s(GPT-5)200~544 tok/s
提示词管理上下文无限塞入去除填充词,最小token设计
基础设施100%依赖云端API本地/混合架构
60~80%模型分层时的成本节省率
10~30x小模型vs大模型推理成本差
70%+推理token可节省量(短推理)

核心总结:如何开始

  1. 了解当前成本结构
    先测量哪些模型被用于哪些任务、token用量是多少。用Finout这类工具可以按项目追踪成本。
  2. 将任务分成三级
    简单(分类、提取、简单Q&A)→ Gemini 3 Flash、Claude Haiku等经济模型。中等(摘要、一般推理)→ Claude 4.5 Sonnet、o4-mini。复杂(多步骤分析、创意工作)→ GPT-5、Claude Opus。
  3. 给提示词减肥
    激进地删除不必要的上下文和填充词。将4K系统提示词中的静态部分做缓存,仅此一项就能减少40%输入成本。
  4. 非实时任务用批量API
    OpenAI和Anthropic的批量API都提供50%折扣。文档分析、内容生成等不需要即时响应的任务,成本直接减半。
  5. 考虑本地算力
    反复且可预测的任务长期来看在本地GPU上运行更便宜。将Mixtral 8x7B这样的开源模型本地部署,省去per-token计费,还能保证数据隐私。