techcrunch.com

Luma Agents — 一次生成文本、图像、视频、音频的 AI 创意智能体

Luma Agents, 멀티모달 AI, 크리에이티브 에이전트, Unified IntelligenceAI 크리에이티브 에이전트

Luma launches creative AI agents powered by its new 'Unified Intelligence' models

Luma Launches Luma Agents Powered by Unified Intelligence for Creative Work

Luma AI's AI Agents Promise to End the Multi-Tool Mess

一场原本 1500 万美元的广告投放,用 40 小时、2 万美元搞定,还通过了品牌方内部的品质审核。

3秒速览

输入 brief → AI 做策划 → 同时生成文本·图像·视频·音频 → 自动品质校验 → 成品投放物料

这是什么?

AI 视频生成公司 Luma 发布了创意 AI 智能体,名字叫 Luma Agents。它是一个能在同一个系统里,端到端生成文本、图像、视频、音频的 AI 协作工具。

你看,过去做 AI 创意类工作,图像要用 Midjourney,视频要用 Sora,音频要用 ElevenLabs——每个工具得单独开。每个模型的提示词写法都不一样,最后还得靠人工把素材拼在一起。Luma Agents 干脆把整条链路整合成了一套。

技术上的关键是一套叫做 Unified Intelligence(统一智能)的新架构。首个模型 Uni-1 是一个 decoder-only transformer(仅解码器架构),能在同一段序列里同时处理语言 token 和图像 token——简单说就是边思考边作画。Luma CEO Amit Jain 用建筑师来比喻:建筑师在画线时,会同时模拟结构、光线、空间动态;Uni-1 也是在一次 forward pass 里同时完成推理和渲染。

Luma 成立于 2021 年,总部位于帕洛阿尔托,累计融资 11 亿美元,估值 40 亿美元。去年 11 月,它从沙特 PIF 旗下的 HUMAIN 拿到 9 亿美元融资,并宣布将在沙特建设一座超级集群(supercluster)数据中心。投资方名单里有 Andreessen Horowitz、NVIDIA、AWS、AMD Ventures 等。

$4B

Luma 估值

$1.1B

累计融资额

20+

Serviceplan 投放国家数

有什么不同?

用 AI 生成内容本来就不是新鲜事。问题在于,过去的做法基本就是一句话:「这儿有 100 个模型,你自己学提示词去用。」按 Jain CEO 的说法,眼下的创意 AI,时间都花在了「编排工具」上。

	传统多工具方式	Luma Agents
工作流	每个工具单独写提示词,结果人工拼合	一份 brief 端到端自动完成
上下文	切换工具时丢失上下文	全程保留整个项目上下文
品质管控	人工逐条审核成片	智能体自动评估、反复优化
模型选择	得自己摸清每个模型的长短板	自动路由到最合适的模型
协作	来回传素材文件	多人实时协作的在线白板

实际案例相当惊人。据 LBB 报道,南非一家不足 20 人的小型代理商,把一支讲述马自达 MX-5 八九十年代到 2000 年代演变史的 campaign,两周就完成了。要知道,如果真的去找车、拍摄、做后期,这种项目通常得几个月。

另一个全球客户先用传统方式拍了一支主片,再借助 Luma 把它改编成 150 多个市场、语言版本的本地化素材。手工打磨的部分交给人,规模化扩展交给 AI——这就是 Luma 主张的混合制作模式。

目前 Luma Agents 已经接入的外部模型相当多:Ray3.14、Google Veo 3、Sora 2、Kling 2.6、Nano Banana Pro、Seedream、GPT Image 1.5、ElevenLabs 等等。智能体会根据每个阶段的任务,自动挑选并路由到最合适的模型。

上手指南

打开 Luma 应用
到 lumalabs.ai 注册账号。也可以通过 API 接入,但直接用应用上手最简单。
用 Brainstorm 模式做策划
先用「帮我做一个产品发布 campaign」这种自然语言开头,智能体会扩展创意、提出方向。这一阶段还不会真正生成素材,只是策略层面的讨论。
切到 Create 模式开始制作
方向定了之后,切换到 Create 模式。智能体负责生成图像、视频、音频,并自动处理模型选择、路由和迭代优化。
像聊天一样给反馈
「色调再暖一点」「就按 2 号方向继续」——像对话一样给反馈,智能体会保留上下文并改进。不需要你去研究提示词工程。
规模化投放
把成片按不同平台、语言、市场做变体分发。在多人白板上还能和团队成员实时协作。