ElevenLabs v3 official cover art with gradient background

eleven-public-cdn.elevenlabs.io

ElevenLabs v3 + 11 Voices:AI 语音表现力超越人类

ElevenLabs v3, AI 음성 합성, Audio Tags, 11 VoicesElevenLabs v3, Text to Dialogue, AI TTS, 음성 복원, ALS, 11 Voices

ElevenLabs debuts 11 Voices docuseries at SXSW — 1 Million Voices campaign

Eleven v3: Most Expressive AI TTS Model Launched

ElevenLabs Audio Tags: More control over AI Voices

仅靠 10 分钟的录音,消失的声音就回来了。因渐冻症(ALS)失去语言能力的演员 Eric Dane,借助 ElevenLabs 的语音复原技术,重新用自己的声音开口说话。 2026 年 2 月,ElevenLabs 推出了有史以来表现力最强的 TTS 模型 Eleven v3,重新定义了 AI 语音合成的基准。这不再是简单的"朗读",而是只靠文字就能生成耳语、笑声、叹息的时代。

3秒速览

Eleven v3 发布(70+ 种语言) → Audio Tags 控制情感与非语言表达 → Text to Dialogue API(多角色语音) → 11 Voices:为 100 万渐冻症患者复原声音

这是什么?

ElevenLabs v3 其实讲的是两个并行的故事:一个关于技术,一个关于人。

技术故事 —— Eleven v3 模型。这是 ElevenLabs 于 2026 年 2 月 12 日发布的最新语音合成模型。如果说上一代模型(Multilingual v2)专注于"自然朗读",那么 v3 的目标就是 "表演式"的声音。核心变化主要有三点。

第一,Audio Tags。你可以在文本中用方括号标注情绪或动作。插入 [whispers]、[excited]、[sighs]、[laughs] 这类标签,模型会相应地调整语气和语速。甚至连 [gunshot]、[explosion] 这样的音效标签都支持,有声书或游戏对白就不必再单独剪辑音效了。

第二,Text to Dialogue API。这是一个把多个声音编织成一段对话的 API。指定最多 10 个独特的声音,每个角色就能像真的在听对方说话一样自然互动。播客、有声书、游戏台词 —— 任何需要多角色的场景都能用。

第三,支持 70 多种语言。涵盖韩语、日语、中文、阿拉伯语等亚洲和中东语言,并会根据文本内容自动调整口音。

70+

支持语言

盲听测试第一名

2.83%

单词错误率(行业最低)

在独立盲听测试中,ElevenLabs 以 37 票拿下第一,第二名只有 19 票。单词错误率(WER)为 2.83%,属于业界最低水平。

人的故事 —— 11 Voices 项目。2026 年 3 月 11 日,ElevenLabs 在 SXSW 首次公开了这部纪录片系列。 11 位因渐冻症、脑瘫等原因失去声音的人,用 AI 复原的自己的声音,亲自讲述自己的故事。演员 Eric Dane 在与渐冻症抗争期间通过 ElevenLabs 的技术找回了声音,他的妻子 Rebecca Gayheart Dane 担任该项目的发言人。

ElevenLabs 联合创始人 Mati Staniszewski 是这样说的 —— "当一个人失去声音,他同时失去的是独立,以及与所爱之人之间的连接。" 只要有 10 分钟的过往录音,就能生成几乎无法分辨的数字人声,并能与辅助设备联动,用于日常对话。

1 Million Voices 行动

ElevenLabs 承诺为 100 万名正在经历语音丧失的人免费提供声音复原技术。实物捐赠总价值达 10 亿美元。目前已帮助约 7,000 人,并与全球 49 个国家的 800 多家非营利机构合作。官方预告片由迈克尔·凯恩爵士通过 ElevenLabs 语音进行旁白。

有什么不同?

现在 AI TTS 市场选项越来越多,关键是 v3 到底改变了什么。

	传统 TTS(v2 世代)	Eleven v3
情感表达	语气单一,缺少细腻变化	用 Audio Tags 实时控制情感与非语言表达
多角色语音	分别生成后手动剪辑	Text to Dialogue API 一次生成自然对话
语言	29 种(Multilingual v2)	70 多种 + 口音自动适配
非语言表达	不支持	[laughs]、[sighs]、[whispers] 等行内标签
音效	需要单独剪辑	用 [gunshot]、[explosion] 等标签直接插入
字符上限	10,000 字(约 10 分钟)	5,000 字(约 5 分钟)—— 以品质优先设计
技术路线	基于韵律(prosody)的合成	上下文感知的表达建模

根据 CloudThat 的技术分析,v3 核心架构的变化在于 "从基于韵律的合成,转向上下文感知的表达建模"。情感和意图不再是后处理效果,而是被融入到生成的 token 本身。所以即便在长文本中,情感也能保持一致。

当然也有取舍。v3 的字符上限是 5,000 字,比 v2 的 10,000 字和 Flash v2.5 的 40,000 字都要短。计算成本也更高。因此 ElevenLabs 按用途区分模型 —— 对表现力要求高的高端内容推荐 v3,普通旁白用 v2,实时对话则推荐 Flash v2.5(延迟约 75ms)。

注意

v3 目前仍处于 alpha 阶段,偶尔会有 bug。有用户反馈长内容中途口音会突然切换,也有评价指出由于生成失败,实际成本可能高达标价的 2.8 倍。在生产环境中,建议与 v2 搭配使用。

上手指南

注册免费账号
在 elevenlabs.io 注册即可每月免费使用 10,000 字。所有用户都能访问 v3。
选择 v3 模型
在 Text to Speech 界面打开模型下拉菜单,选择 "Eleven v3"。默认是 v2,所以需要手动切换。
试玩 Audio Tags
试试 [whispers] 跟你说个秘密 [normal] 其实啥事也没有 [laughs] 这样给文本加标签,马上就能体会到情感切换有多自然。
尝试 Text to Dialogue
通过 API 或 ElevenLabs 平台指定两个声音,输入对话文本,就能生成各个角色相互回应的自然对话。
如果需要声音复原
如果你自己或身边有人正在经历语音丧失,可以在 elevenlabs.io/impact-program 申请免费的终身授权。