过去做一张图需要摄影师、摄影棚、制作团队的时代正在结束。现在电商团队能在几分钟内生成数百张产品图。fal.ai基于6亿多次推理数据撰写了报告,a16z在此基础上加了一层解读,其中最令人印象深刻的事实是:企业生产环境中,中位数会同时使用14个模型。
这是什么?
这是a16z基础设施合伙人Jennifer Li和AI投资合伙人Justine Moore于2026年2月发布的分析。他们在fal.ai发布的《State of Generative Media Report Volume 1》核心数据基础上,加入了投资人视角的解读。
fal.ai特殊的视角让这份报告格外有价值——它的推理引擎为数百万业余用户、开发者和企业提供600多个模型的服务,已经生成了数十亿个素材。仅2025年一年,fal平台就集成了985个新模型(视频450个、图像406个、音频59个、3D 35个、语音35个)。
最值得关注的事实整理如下:
有什么不同?
1.没有"万能模型"——多模型才是标配
在LLM市场,OpenAI、Gemini、Anthropic三家占据了企业支出的89%。但图像/视频市场完全不同——它是刻意碎片化的,而且这样是合理的。擅长拟真图像(photorealistic)的模型,不可能同时擅长背景移除、声音生成、多镜头叙事场景。
2.不是推理,而是编排(orchestration)
做出一个完整素材,靠的不是单次推理调用。图像生成 → 背景移除 → 放大 → 重新上色 → 应用风格LoRA……这种多步骤流水线才是真正的工作单元。光是一个品牌短视频,就要把场景生成、镜头运动、角色一致性、台词合成、声音设计、后期处理全部串起来。
| 传统制作流水线 | AI编排流水线 | |
|---|---|---|
| 产品拍摄 | 摄影师+摄影棚+数周后期 | AI图像生成 → 背景替换 → 放大(数分钟) |
| 广告创意 | 代理公司制作2~4周 | 数百个变体A/B测试(数小时) |
| 游戏素材 | 3D美术师数周工作 | 文本生成3D+自动贴图(数分钟) |
| 视频预可视化 | VFX团队数周工作 | 文生视频+原生音频(数小时) |
3.并非每个像素都有同等价值
批量做产品缩略图或信息流素材时,快而便宜的模型(Flux)才合适——追求完美的边际价值低,而成本会迅速复利累加。反过来,广告活动或品牌形象这类核心素材(hero asset),用Nano Banana Pro之类的高端模型才合适。成本优化(58%)排在基础设施选择的第一位,高于模型可用性(49%)和生成速度(41%)。
4.行业采用现状——广告、游戏、电商领跑
| 行业 | 采用率 | 主要用途 |
|---|---|---|
| 广告 | 56% | 批量生成活动视觉、Banner、社交图 |
| 娱乐·媒体 | 43% | 分镜、预可视化、VFX、宣传片段 |
| 创意软件 | 31% | 设计平台、编辑工具内的AI功能 |
| 教育·培训 | 30% | 交互式学习视频、动画讲解 |
| 零售·电商 | 19% | 自动产品拍摄、虚拟试穿 |
75%的营销组织已经引入了生成式AI,但其中80%还只在不到一半的业务中使用。最大的障碍是什么?94%的人把知识产权和法律责任列为采用的绊脚石。
上手指南
- 不要被单一模型绑死
生产环境的中位数是14个模型。按用途(批量素材 vs 核心素材)分配不同模型,并使用fal.ai或Replicate这类多模型基础设施。 - 把工作流设计成流水线
不是"单次提示词 → 结果",而是"生成 → 编辑 → 放大 → 风格应用"的多步骤流水线。统一的API接口是关键。 - 建立成本-质量矩阵
不必给所有图像都用高端模型。按用途设定速度-成本-质量的平衡点,从高体量素材开始自动化。 - 认真考察开源模型
Flux、Qwen Image Edit等开源模型已经快速缩小了质量差距。如果需要品牌一致性或角色连续性,可以用自有数据微调的开源模型更有优势。 - 把ROI聚焦在特定用例上
广撒网地做实验,ROI会很差。聚焦高价值的特定用例(产品拍摄自动化、A/B创意测试等)的企业,有65%在12个月内实现了ROI。
注意:知识产权风险
94%的营销组织把知识产权和法律责任列为采用障碍。务必建立AI生成素材的版权确认、训练数据的授权核查,以及生成过程的审计追踪(audit trail)。




