お客様がスペイン語で電話してきた。でも担当者が話せるのは日本語だけ。以前なら「英語対応のオペレーターに転送します」で終わっていた場面です。もうその電話を切る必要はありません。

3秒で要約
お客様の音声入力 WebSocketストリーミング リアルタイム音声認識 最大5言語の同時翻訳 オペレーター画面に字幕表示

これは何?

DeepLが2026年2月、Voice APIを正式リリースしました。一言で言うと、オーディオをストリーミングで送ると、リアルタイムで音声認識と翻訳を同時に処理してくれるAPIです。既存のDeepLテキスト翻訳APIの音声版だと思ってください。

DeepLはドイツのケルン発のAI翻訳専門企業で、2024年5月に3億ドルの資金調達を受け、企業価値20億ドルを達成しました。2024年末時点の年間売上は1億8500万ドル、従業員数1,570名規模です。翻訳精度に本気で取り組んでいる会社で、ブラインドテストでは言語の専門家がDeepLの翻訳をGoogleより1.3倍、Microsoftより2.3倍好むという結果が出ています。

Voice APIの核心は3つです:

  1. WebSocketベースのリアルタイムストリーミング
    HTTPのリクエスト・レスポンスではなくWebSocket接続のため、オーディオを流し続けると翻訳も連続して返ってきます。遅延が極めて小さいのが特徴です。
  2. 最大5言語の同時翻訳
    1つのオーディオストリームから最大5つのターゲット言語に同時翻訳できます。多国籍のカンファレンスコールで、参加者それぞれが母語の字幕を受け取れるということです。
  3. Voice-to-Voiceリアルタイム通訳(アーリーアクセス)
    テキストではなく、翻訳された音声をそのまま届ける機能です。オペレーターがお客様の言葉を自分の言語でリアルタイムに聞けます。

ターゲット顧客は明確です。コンタクトセンターとBPO(ビジネスプロセスアウトソーシング)事業者が最優先です。言語の壁で電話を転送せざるを得なかった問い合わせ対応、通訳者を雇わなければならなかったグローバル会議——こういったシナリオで即座に使えます。

何が変わるのか?

リアルタイム音声翻訳はDeepLだけの領域ではありません。Google Cloud Speech-to-Text、Microsoft Azure Speech、OpenAI Realtime APIなど競合は多いです。ただ、性質が違います。

従来の方式(手動/逐次翻訳)DeepL Voice API
処理方式録音→STT→翻訳→伝達(逐次)リアルタイムストリーミング(同時処理)
遅延時間数秒〜数十秒サブ秒レベルの低遅延
翻訳精度汎用モデル専門家ブラインドテスト1.3倍(vs Google)
同時言語数1言語最大5言語同時
統合方式REST API(リクエスト・レスポンス)WebSocket(双方向ストリーミング)
事後編集の負担Google比2倍の修正が必要最小限の修正(GPT-4比3倍少ない)

競合ツールとも比較してみましょう:

ツール強み弱み音声翻訳
DeepL Voice API翻訳精度最高レベル、5言語同時対応Enterprise専用、価格非公開STT+翻訳+Voice-to-Voice
Google Cloud STT + Translate125言語対応、低コスト翻訳品質がDeepL比で低いSTT→翻訳(別々のAPI)
Microsoft Azure SpeechTeamsネイティブ連携翻訳精度がDeepL比2.3倍低いSTT+翻訳統合
OpenAI Realtime API会話型AIエージェントに強み翻訳専門ツールではない音声入出力(翻訳特化ではない)
Sanasアクセント変換特化、BPO20社で採用翻訳ではなくアクセント中立化アクセント変換(翻訳ではない)

Forresterの調査によると、DeepLを導入した企業は翻訳時間90%削減、業務量50%削減、ROI 345%を達成しています。これはテキスト翻訳を含む数値ですが、Voice APIも加わることで音声ベース業務の効率はさらに大きく向上するはずです。

実際の導入事例

ITコンサルティング企業InetumはDeepL Voiceで内部サポートチームを国ごとに分散配置し、言語に関わらず全従業員をサポートしています。グローバルなパン製造企業Brioche Pasquierは「Voice for Meetings」導入後、「拠点間の協力の壁がなくなった」と述べています。

始め方のポイント: DeepL Voice API

  1. APIプランの確認
    Voice APIはDeepL API Pro(月額$5.49〜)以上で利用できます。Enterprise契約であればv3エンドポイントに直接アクセスできます。
  2. WebSocketセッションを開く
    POST v3/voice/realtimeで一時的なストリーミングURL+認証トークンを取得します。このトークンは1回限り有効です。
  3. オーディオストリーミングを開始する
    取得したURLでWebSocket接続を開き、モノラルオーディオストリームを送信します。30秒以内にオーディオを送らないと接続が切れます。
  4. 翻訳結果を受信する
    元の言語の文字起こし(transcription)とターゲット言語の翻訳がリアルタイムで返ってきます。最大1時間の連続セッションが可能です。
  5. 既存システムへの統合
    コンタクトセンターソフトウェア、CRM、ビデオ会議ツールに翻訳結果を字幕やリアルタイムテキストとして表示すれば完成です。

注意

公式のDeepL SDKにはまだVoice APIが統合されていません。WebSocketクライアントライブラリを直接使う必要があります。DeepL CLIツールではVoice APIに対応しています。

Voiceだけじゃない — DeepLプラットフォームの全体像

Voice APIだけを切り取って見ると、見落とすものがあります。DeepLは今、翻訳API→Write API→Voice APIとフルプラットフォーム化を進めています。

1/3

DeepL Voice for Meetings

Microsoft TeamsやZoomでリアルタイム翻訳字幕を提供。参加者それぞれが母語でキャプションを確認できます。会議データはメモリ上でのみ処理され、終了後に削除されます。

2/3

DeepL Voice for Conversations

1対1の対面会話向けモバイルソリューション。1台のデバイスで双方が同時に翻訳内容を確認できるSplit Viewを提供しています。

3/3

DeepL Voice API

開発者が自社アプリに直接統合するAPI。コンタクトセンター、CRM、自社プラットフォームに音声翻訳を組み込めます。