스페인어로 전화가 걸려와요. 상담원은 한국어밖에 못 해요. 지금까지의 정답은 하나였죠 — "영어 가능한 상담원에게 연결해드리겠습니다." 그리고 고객은 끊어요. 다국어 상담은 늘 '돌리거나, 통역사를 붙이거나, 포기하거나' 셋 중 하나였어요.

그런데 2026년 2월, DeepL이 이 셋을 전부 무력화하는 걸 내놨어요. 오디오를 스트리밍으로 흘려보내면, 음성 인식과 번역이 거의 동시에 자막으로 돌아오는 API예요. 통화를 끊을 필요도, 돌릴 필요도 없어요. 이 글은 그걸 여러분 콜센터·미팅 시스템에 실제로 꽂는 방법이에요.

3초 요약
고객 음성 입력 WebSocket 스트리밍 실시간 음성 인식 최대 5개 언어 동시 번역 상담원 화면에 자막 표시

먼저, 왜 REST가 아니라 WebSocket이어야 하는가

실시간 음성 번역 자체는 DeepL만의 영역이 아니에요. Google Cloud STT, Azure Speech, OpenAI Realtime API — 경쟁자는 차고 넘쳐요. 진짜 차이는 '번역 품질'과 '구조'예요.

기존 방식은 대부분 순차 처리였어요. 녹음하고 → STT 돌리고 → 번역 API에 던지고 → 결과를 받아서 → 화면에 뿌리는 흐름. 단계마다 요청-응답 왕복이 생기니까 지연이 수 초에서 수십 초까지 벌어져요. 통화에서 몇 초의 침묵은 사실상 대화가 끊긴 거예요.

DeepL Voice API는 이걸 하나의 WebSocket 연결로 접어버려요. 오디오를 계속 흘려보내면 번역도 계속 흘러나와요. 서브초 수준의 저지연이고, 한 스트림에서 최대 5개 언어로 동시 번역돼요 — 다국적 컨퍼런스콜에서 참가자마다 모국어 자막을 받을 수 있다는 뜻이죠.

기존 방식 (순차 번역)DeepL Voice API
처리 방식녹음 → STT → 번역 → 전달 (순차)실시간 스트리밍 (동시 처리)
지연 시간수 초~수십 초서브초 수준 저지연
동시 언어1개최대 5개 동시
통합 방식REST API (요청-응답)WebSocket (양방향 스트리밍)
번역 정확도범용 모델전문가 블라인드 테스트에서 Google 대비 1.3배 선호
후편집 부담Google 대비 2배 수정 필요최소 수정 (GPT-4 대비 3배 적음)

'정확도 1.3배'가 추상적으로 들릴 수 있는데, 콜센터에선 이게 곧 후처리 부담이에요. 번역이 어긋나면 상담원이 다시 묻고, 고객이 다시 설명하고, 통화 시간이 늘어나요. 언어 전문가 블라인드 테스트에서 DeepL은 Google보다 1.3배, Microsoft보다 2.3배 더 선호됐고, 수정 횟수는 Google 대비 절반, GPT-4 대비 3분의 1이었어요. 실시간 자막은 틀릴 여유가 없는 자리라서, 이 격차가 크게 느껴지는 곳이에요.

그래서 어떻게 꽂는데 — 5단계 연동 레시피

구조는 생각보다 단순해요. 핵심은 'WebSocket 세션 하나를 열고, 오디오를 끊지 않고 흘려보내고, 자막을 받아서 화면에 뿌린다'예요.

  1. API 플랜부터 확인
    Voice API는 DeepL API Pro($5.49/월 기본) 이상에서 열려요. Enterprise 구독이면 v3 엔드포인트로 바로 접근돼요.
  2. WebSocket 세션 열기
    POST v3/voice/realtime으로 임시 스트리밍 URL과 인증 토큰을 받아요. 이 토큰은 1회용이라, 세션마다 새로 발급받아야 해요.
  3. 오디오 스트리밍 시작
    받은 URL로 WebSocket 연결을 열고 모노 오디오 스트림을 전송해요. 함정 하나 — 연결 후 30초 안에 오디오를 보내야 세션이 유지돼요. 무음으로 띄워두면 끊겨요.
  4. 번역 결과 수신
    원본 언어 전사(transcription)와 타깃 언어 번역이 실시간으로 돌아와요. 한 세션은 최대 1시간까지 연속 유지돼요 — 긴 상담이나 회의도 한 연결로 커버되는 거죠.
  5. 기존 시스템에 자막으로 박기
    받은 텍스트를 컨택센터 소프트웨어, CRM, 화상회의 도구에 자막이나 실시간 텍스트로 표시하면 끝이에요. 상담원 화면 한쪽에 고객 발화 자막을 띄우는 게 가장 흔한 1차 구현이에요.

꽂기 전에 알아야 할 함정

공식 DeepL SDK에는 아직 Voice API가 들어와 있지 않아요. 그래서 WebSocket 클라이언트 라이브러리를 직접 붙여야 해요. 빠르게 손맛부터 보고 싶다면, Voice API를 지원하는 DeepL CLI로 먼저 스트림을 쏴보고 응답 포맷을 눈으로 확인한 뒤 코드로 옮기는 걸 추천해요.

한 단계 더 — 자막 말고 '음성으로' 돌려받기

여기까지가 자막(텍스트) 구현이라면, 그다음 칸이 있어요. Voice-to-Voice 실시간 통역(얼리 액세스)이에요. 번역된 텍스트가 아니라 번역된 음성을 바로 들려주는 기능이라, 상담원이 고객의 말을 자기 언어로 '듣는' 거죠. 자막을 읽느라 시선이 분산되는 부담이 사라져요. 얼리 액세스 단계라 1차 구현은 자막으로 가고, Voice-to-Voice는 로드맵에 올려두는 게 현실적이에요.

같은 음성 번역을 '개발 없이' 쓰는 두 갈래

API를 직접 붙이는 게 늘 정답은 아니에요. 코드를 안 짜고도 같은 엔진을 쓰는 길이 두 개 더 있어요. 자기 상황에 맞는 칸을 고르세요.

1/3

Voice for Meetings — 회의에 바로

Teams·Zoom에 붙이는 실시간 번역 자막. 참가자마다 모국어로 캡션을 봐요. 회의 데이터는 메모리에서만 처리되고 종료 후 삭제돼요. 개발 0, 회의 다국어화가 목표라면 여기.

2/3

Voice for Conversations — 대면 1:1

대면 대화용 모바일 앱. 한 기기에서 양쪽이 동시에 번역을 보는 Split View 제공. 현장 응대·대면 상담이라면 여기.

3/3

Voice API — 자사 제품에 임베드

위 5단계로 직접 통합하는 길. 컨택센터·CRM·자체 플랫폼에 음성 번역을 박아 넣어요. 제품화·자동화가 목표라면 여기.

이미 돌아가는 현장

IT 컨설팅 기업 Inetum은 DeepL Voice로 지원팀을 국가별로 분산 배치해 언어와 무관하게 전 직원을 지원하고 있어요. 글로벌 제빵 기업 Brioche Pasquier는 Voice for Meetings 도입 후 "국가 간 사이트의 협업 장벽이 사라졌다"고 했고요. Forrester 연구에선 DeepL 도입 기업이 번역 시간 90% 감소, 업무량 50% 절감, ROI 345%를 기록했어요(텍스트 번역 포함 수치).


한 줄로 정리하면 — WebSocket 세션 하나 열고, 모노 오디오를 30초 안에 흘려보내기 시작하고, 돌아오는 자막을 상담원 화면에 박는다. '영어 가능한 상담원에게 연결' 멘트를 코드 몇 줄로 은퇴시키는 게 생각보다 가까이 와 있어요.