images.ctfassets.net

DeepL Voice API——把实时翻译接进客服通话的方法

用DeepL Voice API在语音通话中实现实时翻译的方法开发

DeepL Launches Voice API for Real-Time Speech Transcription and Translation

DeepL Voice: instant, secure voice translation for global teams

Translate Speech in Realtime - DeepL Voice API Documentation

客户用西班牙语打来电话,可坐席只会中文。以前这种情况,基本只能用一句"我为您转接会英语的同事"草草收场。现在,这通电话其实不用再挂断了。

3秒速览

客户语音输入 → WebSocket 流式传输 → 实时语音识别 → 最多 5 种语言同步翻译 → 坐席屏幕显示字幕

这是什么?

DeepL 在 2026 年 2 月正式推出了 Voice API。简单说,就是把音频以流的形式推送进去,API 会实时同步完成语音识别 + 翻译的服务。你可以把它看作 DeepL 文本翻译 API 的语音版。

DeepL 是一家发源于德国科隆的 AI 翻译公司,2024 年 5 月拿到 3 亿美元融资,公司估值达到 20 亿美元。截至 2024 年底,年营收 1.85 亿美元,员工 1570 人。这家公司对翻译准确度是真的较真——在盲测中,语言专家选择 DeepL 译文的频次比 Google 高 1.3 倍、比 Microsoft 高 2.3 倍。

Voice API 的核心其实就三点:

基于 WebSocket 的实时流式传输
不是 HTTP 请求-响应模式,而是 WebSocket 长连接。音频不断送进去,翻译也不断流出来,延迟压得极低。
同时支持 5 种语言翻译
一路音频流最多可以同时译成 5 种目标语言。意思就是:多国会议电话里,每位参会者都能拿到自己母语的字幕。
Voice-to-Voice 实时口译(早鸟版)
输出的不是文字,而是直接把翻译后的语音播出来。坐席听到的就是客户那句话的本语言版本。

目标客户很明确。联络中心和 BPO(业务流程外包)公司是第一顺位。过去因为语言问题必须转接的通话、必须雇口译的跨国会议——这类场景立刻就能用上。

有什么不同?

实时语音翻译并不是 DeepL 独占的领域。Google Cloud Speech-to-Text、Microsoft Azure Speech、OpenAI Realtime API 等竞争对手一大堆。但路数不一样。

	传统方式(人工/顺序翻译)	DeepL Voice API
处理方式	录音 → STT → 翻译 → 交付(顺序)	实时流式(同步处理)
延迟	数秒~数十秒	亚秒级低延迟
翻译准确度	通用模型	专家盲测比 Google 高 1.3 倍
同时语言数	1 种	最多 5 种同时
集成方式	REST API(请求-响应)	WebSocket(双向流式)
后期编辑量	所需修改量是 Google 的 2 倍	修改最少(比 GPT-4 少 3 倍)

再横向对比一下各个竞品工具:

工具	优势	短板	语音翻译
DeepL Voice API	翻译准确度顶级,5 种语言同步	仅限 Enterprise,价格未公开	STT + 翻译 + Voice-to-Voice
Google Cloud STT + Translate	125 种语言,价格低廉	翻译质量逊于 DeepL	STT → 翻译(独立 API)
Microsoft Azure Speech	原生集成 Teams	翻译准确度比 DeepL 低 2.3 倍	STT + 翻译整合
OpenAI Realtime API	对话式 AI 智能体见长	不是翻译专用工具	语音输入输出(非翻译特化)
Sanas	口音转换专精,被 20 家 BPO 采用	做的是口音中和,不是翻译	口音转换(非翻译)

根据 Forrester 的研究,引入 DeepL 的企业达成了翻译耗时减少 90%、工作量减少 50%、ROI 345%。这个数据当然包含文本翻译,但叠加 Voice API 后,语音类业务的效率还会进一步提升。

真实落地案例

IT 咨询公司 Inetum 用 DeepL Voice 把内部支持团队分散到各国,不分语言地为全体员工提供支援。全球烘焙企业 Brioche Pasquier 在引入 Voice for Meetings 后表示,"跨国站点之间的协作壁垒消失了"。

上手指南:DeepL Voice API 怎么接入

确认 API 套餐
Voice API 需要 DeepL API Pro(起步价 $5.49/月)及以上才能使用。如果是 Enterprise 订阅,可以直接走 v3 端点。
打开 WebSocket 会话
通过 POST v3/voice/realtime 获取临时流式 URL + 认证令牌。这个令牌是一次性的。
开始推送音频流
用拿到的 URL 建立 WebSocket 连接,传入单声道音频流。30 秒内必须开始送音频,否则连接会断。
接收翻译结果
原文转写(transcription)和目标语言翻译会实时返回。单次会话最长可持续 1 小时。
接入既有系统
把翻译结果以字幕或实时文本的形式,显示在联络中心软件、CRM、视频会议工具上就完成了。