images.ctfassets.net

DeepL Voice API — コンタクトセンターの通話にリアルタイム翻訳を組み込む方法

DeepL Voice APIで音声通話にリアルタイム翻訳を実装する方法開発

DeepL Launches Voice API for Real-Time Speech Transcription and Translation

DeepL Voice: instant, secure voice translation for global teams

Translate Speech in Realtime - DeepL Voice API Documentation

お客様がスペイン語で電話してきた。でも担当者が話せるのは日本語だけ。以前なら「英語対応のオペレーターに転送します」で終わっていた場面です。もうその電話を切る必要はありません。

3秒で要約

お客様の音声入力 → WebSocketストリーミング → リアルタイム音声認識 → 最大5言語の同時翻訳 → オペレーター画面に字幕表示

これは何?

DeepLが2026年2月、Voice APIを正式リリースしました。一言で言うと、オーディオをストリーミングで送ると、リアルタイムで音声認識と翻訳を同時に処理してくれるAPIです。既存のDeepLテキスト翻訳APIの音声版だと思ってください。

DeepLはドイツのケルン発のAI翻訳専門企業で、2024年5月に3億ドルの資金調達を受け、企業価値20億ドルを達成しました。2024年末時点の年間売上は1億8500万ドル、従業員数1,570名規模です。翻訳精度に本気で取り組んでいる会社で、ブラインドテストでは言語の専門家がDeepLの翻訳をGoogleより1.3倍、Microsoftより2.3倍好むという結果が出ています。

Voice APIの核心は3つです：

WebSocketベースのリアルタイムストリーミング
HTTPのリクエスト・レスポンスではなくWebSocket接続のため、オーディオを流し続けると翻訳も連続して返ってきます。遅延が極めて小さいのが特徴です。
最大5言語の同時翻訳
1つのオーディオストリームから最大5つのターゲット言語に同時翻訳できます。多国籍のカンファレンスコールで、参加者それぞれが母語の字幕を受け取れるということです。
Voice-to-Voiceリアルタイム通訳（アーリーアクセス）
テキストではなく、翻訳された音声をそのまま届ける機能です。オペレーターがお客様の言葉を自分の言語でリアルタイムに聞けます。

ターゲット顧客は明確です。コンタクトセンターとBPO（ビジネスプロセスアウトソーシング）事業者が最優先です。言語の壁で電話を転送せざるを得なかった問い合わせ対応、通訳者を雇わなければならなかったグローバル会議——こういったシナリオで即座に使えます。

何が変わるのか?

リアルタイム音声翻訳はDeepLだけの領域ではありません。Google Cloud Speech-to-Text、Microsoft Azure Speech、OpenAI Realtime APIなど競合は多いです。ただ、性質が違います。

	従来の方式（手動/逐次翻訳）	DeepL Voice API
処理方式	録音→STT→翻訳→伝達（逐次）	リアルタイムストリーミング（同時処理）
遅延時間	数秒〜数十秒	サブ秒レベルの低遅延
翻訳精度	汎用モデル	専門家ブラインドテスト1.3倍（vs Google）
同時言語数	1言語	最大5言語同時
統合方式	REST API（リクエスト・レスポンス）	WebSocket（双方向ストリーミング）
事後編集の負担	Google比2倍の修正が必要	最小限の修正（GPT-4比3倍少ない）

競合ツールとも比較してみましょう：

ツール	強み	弱み	音声翻訳
DeepL Voice API	翻訳精度最高レベル、5言語同時対応	Enterprise専用、価格非公開	STT＋翻訳＋Voice-to-Voice
Google Cloud STT + Translate	125言語対応、低コスト	翻訳品質がDeepL比で低い	STT→翻訳（別々のAPI）
Microsoft Azure Speech	Teamsネイティブ連携	翻訳精度がDeepL比2.3倍低い	STT＋翻訳統合
OpenAI Realtime API	会話型AIエージェントに強み	翻訳専門ツールではない	音声入出力（翻訳特化ではない）
Sanas	アクセント変換特化、BPO20社で採用	翻訳ではなくアクセント中立化	アクセント変換（翻訳ではない）

Forresterの調査によると、DeepLを導入した企業は翻訳時間90%削減、業務量50%削減、ROI 345%を達成しています。これはテキスト翻訳を含む数値ですが、Voice APIも加わることで音声ベース業務の効率はさらに大きく向上するはずです。

実際の導入事例

ITコンサルティング企業InetumはDeepL Voiceで内部サポートチームを国ごとに分散配置し、言語に関わらず全従業員をサポートしています。グローバルなパン製造企業Brioche Pasquierは「Voice for Meetings」導入後、「拠点間の協力の壁がなくなった」と述べています。

始め方のポイント: DeepL Voice API

APIプランの確認
Voice APIはDeepL API Pro（月額$5.49〜）以上で利用できます。Enterprise契約であればv3エンドポイントに直接アクセスできます。
WebSocketセッションを開く
POST v3/voice/realtimeで一時的なストリーミングURL＋認証トークンを取得します。このトークンは1回限り有効です。
オーディオストリーミングを開始する
取得したURLでWebSocket接続を開き、モノラルオーディオストリームを送信します。30秒以内にオーディオを送らないと接続が切れます。
翻訳結果を受信する
元の言語の文字起こし（transcription）とターゲット言語の翻訳がリアルタイムで返ってきます。最大1時間の連続セッションが可能です。
既存システムへの統合
コンタクトセンターソフトウェア、CRM、ビデオ会議ツールに翻訳結果を字幕やリアルタイムテキストとして表示すれば完成です。

注意

公式のDeepL SDKにはまだVoice APIが統合されていません。WebSocketクライアントライブラリを直接使う必要があります。DeepL CLIツールではVoice APIに対応しています。

Voiceだけじゃない — DeepLプラットフォームの全体像

Voice APIだけを切り取って見ると、見落とすものがあります。DeepLは今、翻訳API→Write API→Voice APIとフルプラットフォーム化を進めています。

1/3

DeepL Voice for Meetings

Microsoft TeamsやZoomでリアルタイム翻訳字幕を提供。参加者それぞれが母語でキャプションを確認できます。会議データはメモリ上でのみ処理され、終了後に削除されます。

2/3

DeepL Voice for Conversations

1対1の対面会話向けモバイルソリューション。1台のデバイスで双方が同時に翻訳内容を確認できるSplit Viewを提供しています。

3/3

DeepL Voice API

開発者が自社アプリに直接統合するAPI。コンタクトセンター、CRM、自社プラットフォームに音声翻訳を組み込めます。

🔗

さらに深掘りしたい人へ

DeepL Voice API 公式ドキュメント

WebSocket接続、オーディオフォーマット、セッション管理まで開発者に必要なすべてのリファレンス

DeepL Voice 製品ページ

Meetings、Conversations、APIの3モデルの違いとデモを一目で確認

DeepL Voice 紹介ブログ

Voiceプロダクトラインの誕生の背景とビジョンをDeepLが直接語る公式ブログポスト

DeepL次世代LLM翻訳精度分析

Google・GPT-4対比のブラインドテスト結果と言語別パフォーマンス比較データ

国境のないコンタクトセンター — DeepLブログ

リアルタイム翻訳で多言語カスタマーサポートチームを構築する戦略と事例

DeepL CLI — GitHub

Translate、Write、Voice APIをコマンドラインで直接テストできる公式CLIツール

よくある質問

Voice APIの料金はいくらですか？テキスト翻訳APIのように文字数課金ですか？

Voice APIはDeepL API Pro（月額$5.49〜）以上で利用できますが、音声翻訳の詳細な料金体系はまだ公開されていません。Enterpriseサブスクライバーは営業チームを通じて個別見積もりを取得できます。テキストAPIと異なり、ストリーミング時間ベースの課金になる可能性が高いです。

日本語の音声認識にも対応していますか？精度はどうですか？

はい、日本語を含む13言語の音声認識に対応しています。リアルタイム字幕翻訳はDeepL翻訳機が対応する33言語全体に可能です。日本語・英語間の翻訳はDeepLの次世代モデルで従来比1.7倍の品質向上を達成しています。

既存のコンタクトセンターソフトウェア（Genesys、Zendesk等）にどう連携しますか？

Voice APIはWebSocketベースのため、コンタクトセンターソフトウェアのオーディオストリームをWebSocketで転送し、翻訳結果をオペレーター画面に表示するミドルウェアを構築する形になります。公式SDK統合はまだですが、DeepL CLIや一般的なWebSocketライブラリで直接開発できます。

会議の録音データはDeepLのサーバーに保存されますか？セキュリティが心配です。

DeepLはすべての音声データをメモリ上でのみ一時処理し、セッション終了後に即座に削除します。転送中は暗号化が適用され、顧客データをAIモデルの学習に使用しないことを明示しています。GDPRに準拠したEUサーバーで処理される点もメリットです。