お客様がスペイン語で電話してきた。でも担当者が話せるのは日本語だけ。以前なら「英語対応のオペレーターに転送します」で終わっていた場面です。もうその電話を切る必要はありません。
これは何?
DeepLが2026年2月、Voice APIを正式リリースしました。一言で言うと、オーディオをストリーミングで送ると、リアルタイムで音声認識と翻訳を同時に処理してくれるAPIです。既存のDeepLテキスト翻訳APIの音声版だと思ってください。
DeepLはドイツのケルン発のAI翻訳専門企業で、2024年5月に3億ドルの資金調達を受け、企業価値20億ドルを達成しました。2024年末時点の年間売上は1億8500万ドル、従業員数1,570名規模です。翻訳精度に本気で取り組んでいる会社で、ブラインドテストでは言語の専門家がDeepLの翻訳をGoogleより1.3倍、Microsoftより2.3倍好むという結果が出ています。
Voice APIの核心は3つです:
- WebSocketベースのリアルタイムストリーミング
HTTPのリクエスト・レスポンスではなくWebSocket接続のため、オーディオを流し続けると翻訳も連続して返ってきます。遅延が極めて小さいのが特徴です。 - 最大5言語の同時翻訳
1つのオーディオストリームから最大5つのターゲット言語に同時翻訳できます。多国籍のカンファレンスコールで、参加者それぞれが母語の字幕を受け取れるということです。 - Voice-to-Voiceリアルタイム通訳(アーリーアクセス)
テキストではなく、翻訳された音声をそのまま届ける機能です。オペレーターがお客様の言葉を自分の言語でリアルタイムに聞けます。
ターゲット顧客は明確です。コンタクトセンターとBPO(ビジネスプロセスアウトソーシング)事業者が最優先です。言語の壁で電話を転送せざるを得なかった問い合わせ対応、通訳者を雇わなければならなかったグローバル会議——こういったシナリオで即座に使えます。
何が変わるのか?
リアルタイム音声翻訳はDeepLだけの領域ではありません。Google Cloud Speech-to-Text、Microsoft Azure Speech、OpenAI Realtime APIなど競合は多いです。ただ、性質が違います。
| 従来の方式(手動/逐次翻訳) | DeepL Voice API | |
|---|---|---|
| 処理方式 | 録音→STT→翻訳→伝達(逐次) | リアルタイムストリーミング(同時処理) |
| 遅延時間 | 数秒〜数十秒 | サブ秒レベルの低遅延 |
| 翻訳精度 | 汎用モデル | 専門家ブラインドテスト1.3倍(vs Google) |
| 同時言語数 | 1言語 | 最大5言語同時 |
| 統合方式 | REST API(リクエスト・レスポンス) | WebSocket(双方向ストリーミング) |
| 事後編集の負担 | Google比2倍の修正が必要 | 最小限の修正(GPT-4比3倍少ない) |
競合ツールとも比較してみましょう:
| ツール | 強み | 弱み | 音声翻訳 |
|---|---|---|---|
| DeepL Voice API | 翻訳精度最高レベル、5言語同時対応 | Enterprise専用、価格非公開 | STT+翻訳+Voice-to-Voice |
| Google Cloud STT + Translate | 125言語対応、低コスト | 翻訳品質がDeepL比で低い | STT→翻訳(別々のAPI) |
| Microsoft Azure Speech | Teamsネイティブ連携 | 翻訳精度がDeepL比2.3倍低い | STT+翻訳統合 |
| OpenAI Realtime API | 会話型AIエージェントに強み | 翻訳専門ツールではない | 音声入出力(翻訳特化ではない) |
| Sanas | アクセント変換特化、BPO20社で採用 | 翻訳ではなくアクセント中立化 | アクセント変換(翻訳ではない) |
Forresterの調査によると、DeepLを導入した企業は翻訳時間90%削減、業務量50%削減、ROI 345%を達成しています。これはテキスト翻訳を含む数値ですが、Voice APIも加わることで音声ベース業務の効率はさらに大きく向上するはずです。
実際の導入事例
ITコンサルティング企業InetumはDeepL Voiceで内部サポートチームを国ごとに分散配置し、言語に関わらず全従業員をサポートしています。グローバルなパン製造企業Brioche Pasquierは「Voice for Meetings」導入後、「拠点間の協力の壁がなくなった」と述べています。
始め方のポイント: DeepL Voice API
- APIプランの確認
Voice APIはDeepL API Pro(月額$5.49〜)以上で利用できます。Enterprise契約であればv3エンドポイントに直接アクセスできます。 - WebSocketセッションを開く
POST v3/voice/realtimeで一時的なストリーミングURL+認証トークンを取得します。このトークンは1回限り有効です。 - オーディオストリーミングを開始する
取得したURLでWebSocket接続を開き、モノラルオーディオストリームを送信します。30秒以内にオーディオを送らないと接続が切れます。 - 翻訳結果を受信する
元の言語の文字起こし(transcription)とターゲット言語の翻訳がリアルタイムで返ってきます。最大1時間の連続セッションが可能です。 - 既存システムへの統合
コンタクトセンターソフトウェア、CRM、ビデオ会議ツールに翻訳結果を字幕やリアルタイムテキストとして表示すれば完成です。
注意
公式のDeepL SDKにはまだVoice APIが統合されていません。WebSocketクライアントライブラリを直接使う必要があります。DeepL CLIツールではVoice APIに対応しています。
Voiceだけじゃない — DeepLプラットフォームの全体像
Voice APIだけを切り取って見ると、見落とすものがあります。DeepLは今、翻訳API→Write API→Voice APIとフルプラットフォーム化を進めています。




