客户用西班牙语打来电话,可坐席只会中文。以前这种情况,基本只能用一句"我为您转接会英语的同事"草草收场。现在,这通电话其实不用再挂断了。

3秒速览
客户语音输入 WebSocket 流式传输 实时语音识别 最多 5 种语言同步翻译 坐席屏幕显示字幕

这是什么?

DeepL 在 2026 年 2 月正式推出了 Voice API。简单说,就是把音频以流的形式推送进去,API 会实时同步完成语音识别 + 翻译的服务。你可以把它看作 DeepL 文本翻译 API 的语音版。

DeepL 是一家发源于德国科隆的 AI 翻译公司,2024 年 5 月拿到 3 亿美元融资,公司估值达到 20 亿美元。截至 2024 年底,年营收 1.85 亿美元,员工 1570 人。这家公司对翻译准确度是真的较真——在盲测中,语言专家选择 DeepL 译文的频次比 Google 高 1.3 倍、比 Microsoft 高 2.3 倍

Voice API 的核心其实就三点:

  1. 基于 WebSocket 的实时流式传输
    不是 HTTP 请求-响应模式,而是 WebSocket 长连接。音频不断送进去,翻译也不断流出来,延迟压得极低。
  2. 同时支持 5 种语言翻译
    一路音频流最多可以同时译成 5 种目标语言。意思就是:多国会议电话里,每位参会者都能拿到自己母语的字幕。
  3. Voice-to-Voice 实时口译(早鸟版)
    输出的不是文字,而是直接把翻译后的语音播出来。坐席听到的就是客户那句话的本语言版本。

目标客户很明确。联络中心和 BPO(业务流程外包)公司是第一顺位。过去因为语言问题必须转接的通话、必须雇口译的跨国会议——这类场景立刻就能用上。

有什么不同?

实时语音翻译并不是 DeepL 独占的领域。Google Cloud Speech-to-Text、Microsoft Azure Speech、OpenAI Realtime API 等竞争对手一大堆。但路数不一样。

传统方式(人工/顺序翻译)DeepL Voice API
处理方式录音 → STT → 翻译 → 交付(顺序)实时流式(同步处理)
延迟数秒~数十秒亚秒级低延迟
翻译准确度通用模型专家盲测比 Google 高 1.3 倍
同时语言数1 种最多 5 种同时
集成方式REST API(请求-响应)WebSocket(双向流式)
后期编辑量所需修改量是 Google 的 2 倍修改最少(比 GPT-4 少 3 倍)

再横向对比一下各个竞品工具:

工具优势短板语音翻译
DeepL Voice API翻译准确度顶级,5 种语言同步仅限 Enterprise,价格未公开STT + 翻译 + Voice-to-Voice
Google Cloud STT + Translate125 种语言,价格低廉翻译质量逊于 DeepLSTT → 翻译(独立 API)
Microsoft Azure Speech原生集成 Teams翻译准确度比 DeepL 低 2.3 倍STT + 翻译整合
OpenAI Realtime API对话式 AI 智能体见长不是翻译专用工具语音输入输出(非翻译特化)
Sanas口音转换专精,被 20 家 BPO 采用做的是口音中和,不是翻译口音转换(非翻译)

根据 Forrester 的研究,引入 DeepL 的企业达成了翻译耗时减少 90%、工作量减少 50%、ROI 345%。这个数据当然包含文本翻译,但叠加 Voice API 后,语音类业务的效率还会进一步提升。

真实落地案例

IT 咨询公司 Inetum 用 DeepL Voice 把内部支持团队分散到各国,不分语言地为全体员工提供支援。全球烘焙企业 Brioche Pasquier 在引入 Voice for Meetings 后表示,"跨国站点之间的协作壁垒消失了"。

上手指南:DeepL Voice API 怎么接入

  1. 确认 API 套餐
    Voice API 需要 DeepL API Pro(起步价 $5.49/月)及以上才能使用。如果是 Enterprise 订阅,可以直接走 v3 端点。
  2. 打开 WebSocket 会话
    通过 POST v3/voice/realtime 获取临时流式 URL + 认证令牌。这个令牌是一次性的。
  3. 开始推送音频流
    用拿到的 URL 建立 WebSocket 连接,传入单声道音频流。30 秒内必须开始送音频,否则连接会断。
  4. 接收翻译结果
    原文转写(transcription)和目标语言翻译会实时返回。单次会话最长可持续 1 小时。
  5. 接入既有系统
    把翻译结果以字幕或实时文本的形式,显示在联络中心软件、CRM、视频会议工具上就完成了。

注意

DeepL 官方 SDK 目前还没有整合 Voice API,需要直接用 WebSocket 客户端库。不过 DeepL CLI 工具已经支持 Voice API。

不只是 Voice——DeepL 平台的全景

只盯着 Voice API 看会漏掉一些东西。DeepL 现在正沿着翻译 API → Write API → Voice API 的路径,打造完整的平台。

1/3

DeepL Voice for Meetings

在 Microsoft Teams、Zoom 里提供实时翻译字幕。每位参会者都能看到自己母语的字幕。会议数据只在内存中处理,会议结束立即删除。

2/3

DeepL Voice for Conversations

面向 1 对 1 面对面对话的移动端方案。一台设备上提供 Split View,双方可以同时看到翻译内容。

3/3

DeepL Voice API

供开发者直接集成到自家应用的 API。可以把语音翻译嵌入到联络中心、CRM、自研平台里。