10分の録音だけで、失われた声が戻ってきました。ALSで声を失った俳優のEric DaneがElevenLabsの音声復元技術で、再び自分の声で話せるようになったんです。 そして2026年2月、ElevenLabsは史上最も表現力の高いTTSモデル「Eleven v3」をリリースし、AI音声合成の基準を塗り替えました。 ただ「読み上げる」レベルを超えて、ささやき、笑い、ため息をつく音声までテキストだけで作り出せる時代が始まりました。

3秒で要約
Eleven v3リリース(70以上の言語対応) Audio Tagsで感情・非言語表現を制御 Text to Dialogue API(マルチボイス) 11 Voices:ALS患者100万人の音声を復元

これは何?

ElevenLabs v3には、同時進行する2つのストーリーがあります。一つは技術の話、もう一つは人の話です。

技術の話 — Eleven v3モデル。 2026年2月12日にリリースされた、ElevenLabsの最新音声合成モデルです。 以前のモデル(Multilingual v2)が「自然に読む」ことに重点を置いていたとすれば、v3は「演じる」音声を目標に作られました。 主な変化は3つあります。

1つ目はAudio Tagsです。テキスト内に角括弧で感情や動作を指定できます。 [whispers][excited][sighs][laughs]といったタグを入れると、モデルがそれに合わせてトーンとスピードを変えます。[gunshot][explosion]といった効果音タグまでサポートしているので、オーディオブックやゲームのセリフに効果音を別途編集する手間が省けます。

2つ目はText to Dialogue APIです。複数の音声を1つの会話にまとめるAPIです。 最大10個の固有音声を指定すると、各キャラクターがお互いの話し方に反応するような自然な会話を生成します。ポッドキャスト、オーディオブック、ゲームのセリフ — マルチキャラクターが必要なあらゆる場面で活用できます。

3つ目は70以上の言語対応です。日本語、韓国語、中国語、アラビア語などアジア・中東の言語まで幅広くカバーし、テキストの内容に応じてアクセントを自動調整します。

70+
対応言語
#1
ブラインドリスニングテスト1位
2.83%
単語誤り率(業界最低水準)

独立したブラインドリスニングテストでElevenLabsは37票を獲得して1位になりました。2位は19票。単語誤り率(WER)も2.83%と業界最低水準です。

人の話 — 11 Voicesプロジェクト。 2026年3月11日、SXSWで公開されたドキュシリーズです。 ALS、脳性麻痺などで声を失った11人が、AIで復元した自分の声で自身のストーリーをナレーションしています。俳優のEric DaneはALSの闘病中にElevenLabsの技術で声を取り戻し、彼の妻Rebecca Gayheart Daneがこのプロジェクトのスポークスパーソンを務めています。

ElevenLabsの共同創業者Mati Staniszewskiはこう語っています — 「誰かが声を失うと、自立と大切な人との繋がりも一緒に失うんです。」 たった10分の過去の録音があれば、ほぼ区別のつかないデジタル音声を作ることができ、支援機器と連携して日常会話にも使えます。

1 Million Voicesキャンペーン

ElevenLabsは音声を失った100万人に無料の音声復元技術を提供することを約束しています。現物寄付価値は10億ドル規模。現在までに約7,000人をサポートし、49カ国800以上の非営利パートナーと連携しています。 公式トレーラーはサー・マイケル・ケインがElevenLabsの音声でナレーションしています。

何が変わるのか?

AI TTS市場の選択肢が増えた今、v3が実際に何を変えるのかが重要ですよね。

既存のTTS(v2世代) Eleven v3
感情表現 トーンが一定でニュアンスに乏しい Audio Tagsで感情・非言語をリアルタイム制御
マルチ話者 個別生成後に手動で編集 Text to Dialogue APIで自然な会話を一度に生成
言語 29言語(Multilingual v2) 70以上の言語+アクセント自動調整
非言語表現 不可 [laughs]、[sighs]、[whispers]などのインラインタグ
効果音 別途編集が必要 [gunshot]、[explosion]などのタグで挿入
文字数上限 10,000文字(約10分) 5,000文字(約5分)— 品質優先の設計
技術アプローチ 韻律ベースの合成 文脈認識型表現モデリング

CloudThatの技術分析によると、v3の核心的なアーキテクチャの変化は「韻律ベースの合成から文脈認識型表現モデリングへの転換」です。 感情と意図を後処理エフェクトとしてではなく、生成トークン自体に組み込んだわけです。だから長いテキストでも感情が一貫して維持されます。

もちろんトレードオフもあります。v3の文字数上限は5,000文字で、v2の10,000文字やFlash v2.5の40,000文字より短くなっています。 処理コストも高くなります。そのためElevenLabsは用途別にモデルを分けています — 表現力が重要なプレミアムコンテンツにはv3、一般的なナレーションにはv2、リアルタイム会話にはFlash v2.5(レイテンシ約75ms)を推奨しています。

注意

v3はまだアルファ段階のため、まれにバグが発生することがあります。 長いコンテンツでアクセントが途中で変わる現象が報告されており、生成失敗により実際のコストが表示価格の2.8倍になるというレビューもあります。 本番環境ではv2と並行して使用することをお勧めします。

始め方のポイント

  1. 無料アカウントを作成する
    elevenlabs.ioに登録すると、月10,000文字を無料で使えます。すべてのユーザーがv3にアクセスできます。
  2. v3モデルを選択する
    Text to Speech画面でモデルのドロップダウンを開き、「Eleven v3」を選んでください。デフォルトはv2になっているので、手動での切り替えが必要です。
  3. Audio Tagsを試してみる
    [whispers] 秘密なんですけど [normal] 実は何でもないんです [laughs] のようにテキストにタグを入れてみてください。感情の切り替えがどれだけ自然かすぐに実感できます。
  4. Text to Dialogueを試す
    APIまたはElevenLabsプラットフォームで2人の音声を指定して会話テキストを入力すると、各キャラクターがお互いに反応する自然な会話が生成されます。
  5. 音声復元が必要な場合は
    ご自身または周囲に音声を失った方がいれば、elevenlabs.io/impact-programで無料の永久ライセンスを申請できます。