仅靠 10 分钟的录音,消失的声音就回来了。因渐冻症(ALS)失去语言能力的演员 Eric Dane,借助 ElevenLabs 的语音复原技术,重新用自己的声音开口说话。 2026 年 2 月,ElevenLabs 推出了有史以来表现力最强的 TTS 模型 Eleven v3,重新定义了 AI 语音合成的基准。 这不再是简单的"朗读",而是只靠文字就能生成耳语、笑声、叹息的时代。
这是什么?
ElevenLabs v3 其实讲的是两个并行的故事:一个关于技术,一个关于人。
技术故事 —— Eleven v3 模型。这是 ElevenLabs 于 2026 年 2 月 12 日发布的最新语音合成模型。 如果说上一代模型(Multilingual v2)专注于"自然朗读",那么 v3 的目标就是 "表演式"的声音。核心变化主要有三点。
第一,Audio Tags。你可以在文本中用方括号标注情绪或动作。 插入 [whispers]、[excited]、[sighs]、[laughs] 这类标签,模型会相应地调整语气和语速。甚至连 [gunshot]、[explosion] 这样的音效标签都支持,有声书或游戏对白就不必再单独剪辑音效了。
第二,Text to Dialogue API。这是一个把多个声音编织成一段对话的 API。 指定最多 10 个独特的声音,每个角色就能像真的在听对方说话一样自然互动。播客、有声书、游戏台词 —— 任何需要多角色的场景都能用。
第三,支持 70 多种语言。涵盖韩语、日语、中文、阿拉伯语等亚洲和中东语言,并会根据文本内容自动调整口音。
在独立盲听测试中,ElevenLabs 以 37 票拿下第一,第二名只有 19 票。单词错误率(WER)为 2.83%,属于业界最低水平。
人的故事 —— 11 Voices 项目。2026 年 3 月 11 日,ElevenLabs 在 SXSW 首次公开了这部纪录片系列。 11 位因渐冻症、脑瘫等原因失去声音的人,用 AI 复原的自己的声音,亲自讲述自己的故事。演员 Eric Dane 在与渐冻症抗争期间通过 ElevenLabs 的技术找回了声音,他的妻子 Rebecca Gayheart Dane 担任该项目的发言人。
ElevenLabs 联合创始人 Mati Staniszewski 是这样说的 —— "当一个人失去声音,他同时失去的是独立,以及与所爱之人之间的连接。" 只要有 10 分钟的过往录音,就能生成几乎无法分辨的数字人声,并能与辅助设备联动,用于日常对话。
1 Million Voices 行动
ElevenLabs 承诺为 100 万名正在经历语音丧失的人免费提供声音复原技术。实物捐赠总价值达 10 亿美元。目前已帮助约 7,000 人,并与全球 49 个国家的 800 多家非营利机构合作。 官方预告片由迈克尔·凯恩爵士通过 ElevenLabs 语音进行旁白。
有什么不同?
现在 AI TTS 市场选项越来越多,关键是 v3 到底改变了什么。
| 传统 TTS(v2 世代) | Eleven v3 | |
|---|---|---|
| 情感表达 | 语气单一,缺少细腻变化 | 用 Audio Tags 实时控制情感与非语言表达 |
| 多角色语音 | 分别生成后手动剪辑 | Text to Dialogue API 一次生成自然对话 |
| 语言 | 29 种(Multilingual v2) | 70 多种 + 口音自动适配 |
| 非语言表达 | 不支持 | [laughs]、[sighs]、[whispers] 等行内标签 |
| 音效 | 需要单独剪辑 | 用 [gunshot]、[explosion] 等标签直接插入 |
| 字符上限 | 10,000 字(约 10 分钟) | 5,000 字(约 5 分钟)—— 以品质优先设计 |
| 技术路线 | 基于韵律(prosody)的合成 | 上下文感知的表达建模 |
根据 CloudThat 的技术分析,v3 核心架构的变化在于 "从基于韵律的合成,转向上下文感知的表达建模"。 情感和意图不再是后处理效果,而是被融入到生成的 token 本身。所以即便在长文本中,情感也能保持一致。
当然也有取舍。v3 的字符上限是 5,000 字,比 v2 的 10,000 字和 Flash v2.5 的 40,000 字都要短。 计算成本也更高。因此 ElevenLabs 按用途区分模型 —— 对表现力要求高的高端内容推荐 v3,普通旁白用 v2,实时对话则推荐 Flash v2.5(延迟约 75ms)。
注意
v3 目前仍处于 alpha 阶段,偶尔会有 bug。 有用户反馈长内容中途口音会突然切换,也有评价指出由于生成失败,实际成本可能高达标价的 2.8 倍。 在生产环境中,建议与 v2 搭配使用。
上手指南
- 注册免费账号
在 elevenlabs.io 注册即可每月免费使用 10,000 字。所有用户都能访问 v3。 - 选择 v3 模型
在 Text to Speech 界面打开模型下拉菜单,选择 "Eleven v3"。默认是 v2,所以需要手动切换。 - 试玩 Audio Tags
试试[whispers] 跟你说个秘密 [normal] 其实啥事也没有 [laughs]这样给文本加标签,马上就能体会到情感切换有多自然。 - 尝试 Text to Dialogue
通过 API 或 ElevenLabs 平台指定两个声音,输入对话文本,就能生成各个角色相互回应的自然对话。 - 如果需要声音复原
如果你自己或身边有人正在经历语音丧失,可以在 elevenlabs.io/impact-program 申请免费的终身授权。




