过去做一张图需要摄影师、摄影棚、制作团队的时代正在结束。现在电商团队能在几分钟内生成数百张产品图。fal.ai基于6亿多次推理数据撰写了报告,a16z在此基础上加了一层解读,其中最令人印象深刻的事实是:企业生产环境中,中位数会同时使用14个模型

3秒速览
单一模型时代终结 从推理转向编排 每个像素价值不同 广告·电商·游戏领跑 开源正在缩小差距

这是什么?

这是a16z基础设施合伙人Jennifer Li和AI投资合伙人Justine Moore于2026年2月发布的分析。他们在fal.ai发布的《State of Generative Media Report Volume 1》核心数据基础上,加入了投资人视角的解读。

fal.ai特殊的视角让这份报告格外有价值——它的推理引擎为数百万业余用户、开发者和企业提供600多个模型的服务,已经生成了数十亿个素材。仅2025年一年,fal平台就集成了985个新模型(视频450个、图像406个、音频59个、3D 35个、语音35个)。

最值得关注的事实整理如下:

14个
企业生产环境模型数量中位数
65%
12个月内实现ROI的企业比例
58%
选择基础设施时优先考虑成本优化的比例
75%
营销组织的AI采用率

有什么不同?

1.没有"万能模型"——多模型才是标配

在LLM市场,OpenAIGeminiAnthropic三家占据了企业支出的89%。但图像/视频市场完全不同——它是刻意碎片化的,而且这样是合理的。擅长拟真图像(photorealistic)的模型,不可能同时擅长背景移除、声音生成、多镜头叙事场景。

2.不是推理,而是编排(orchestration)

做出一个完整素材,靠的不是单次推理调用。图像生成 → 背景移除 → 放大 → 重新上色 → 应用风格LoRA……这种多步骤流水线才是真正的工作单元。光是一个品牌短视频,就要把场景生成、镜头运动、角色一致性、台词合成、声音设计、后期处理全部串起来。

传统制作流水线AI编排流水线
产品拍摄摄影师+摄影棚+数周后期AI图像生成 → 背景替换 → 放大(数分钟)
广告创意代理公司制作2~4周数百个变体A/B测试(数小时)
游戏素材3D美术师数周工作文本生成3D+自动贴图(数分钟)
视频预可视化VFX团队数周工作文生视频+原生音频(数小时)

3.并非每个像素都有同等价值

批量做产品缩略图或信息流素材时,快而便宜的模型(Flux)才合适——追求完美的边际价值低,而成本会迅速复利累加。反过来,广告活动或品牌形象这类核心素材(hero asset),用Nano Banana Pro之类的高端模型才合适。成本优化(58%)排在基础设施选择的第一位,高于模型可用性(49%)和生成速度(41%)

4.行业采用现状——广告、游戏、电商领跑

行业采用率主要用途
广告56%批量生成活动视觉、Banner、社交图
娱乐·媒体43%分镜、预可视化、VFX、宣传片段
创意软件31%设计平台、编辑工具内的AI功能
教育·培训30%交互式学习视频、动画讲解
零售·电商19%自动产品拍摄、虚拟试穿

75%的营销组织已经引入了生成式AI,但其中80%还只在不到一半的业务中使用。最大的障碍是什么?94%的人把知识产权和法律责任列为采用的绊脚石。

上手指南

  1. 不要被单一模型绑死
    生产环境的中位数是14个模型。按用途(批量素材 vs 核心素材)分配不同模型,并使用fal.ai或Replicate这类多模型基础设施。
  2. 把工作流设计成流水线
    不是"单次提示词 → 结果",而是"生成 → 编辑 → 放大 → 风格应用"的多步骤流水线。统一的API接口是关键。
  3. 建立成本-质量矩阵
    不必给所有图像都用高端模型。按用途设定速度-成本-质量的平衡点,从高体量素材开始自动化。
  4. 认真考察开源模型
    Flux、Qwen Image Edit等开源模型已经快速缩小了质量差距。如果需要品牌一致性或角色连续性,可以用自有数据微调的开源模型更有优势。
  5. 把ROI聚焦在特定用例上
    广撒网地做实验,ROI会很差。聚焦高价值的特定用例(产品拍摄自动化、A/B创意测试等)的企业,有65%在12个月内实现了ROI。

注意:知识产权风险

94%的营销组织把知识产权和法律责任列为采用障碍。务必建立AI生成素材的版权确认、训练数据的授权核查,以及生成过程的审计追踪(audit trail)。