images.ctfassets.net

통화를 끊지 않고 스페인어 고객을 응대하는 법 — DeepL Voice API 5단계 연동

deepl-voice-api-realtime-translationDeepL Voice API

DeepL Launches Voice API for Real-Time Speech Transcription and Translation

DeepL Voice: instant, secure voice translation for global teams

Translate Speech in Realtime - DeepL Voice API Documentation

스페인어로 전화가 걸려와요. 상담원은 한국어밖에 못 해요. 지금까지의 정답은 하나였죠 — "영어 가능한 상담원에게 연결해드리겠습니다." 그리고 고객은 끊어요. 다국어 상담은 늘 '돌리거나, 통역사를 붙이거나, 포기하거나' 셋 중 하나였어요.

그런데 2026년 2월, DeepL이 이 셋을 전부 무력화하는 걸 내놨어요. 오디오를 스트리밍으로 흘려보내면, 음성 인식과 번역이 거의 동시에 자막으로 돌아오는 API예요. 통화를 끊을 필요도, 돌릴 필요도 없어요. 이 글은 그걸 여러분 콜센터·미팅 시스템에 실제로 꽂는 방법이에요.

3초 요약

고객 음성 입력 → WebSocket 스트리밍 → 실시간 음성 인식 → 최대 5개 언어 동시 번역 → 상담원 화면에 자막 표시

먼저, 왜 REST가 아니라 WebSocket이어야 하는가

실시간 음성 번역 자체는 DeepL만의 영역이 아니에요. Google Cloud STT, Azure Speech, OpenAI Realtime API — 경쟁자는 차고 넘쳐요. 진짜 차이는 '번역 품질'과 '구조'예요.

기존 방식은 대부분 순차 처리였어요. 녹음하고 → STT 돌리고 → 번역 API에 던지고 → 결과를 받아서 → 화면에 뿌리는 흐름. 단계마다 요청-응답 왕복이 생기니까 지연이 수 초에서 수십 초까지 벌어져요. 통화에서 몇 초의 침묵은 사실상 대화가 끊긴 거예요.

DeepL Voice API는 이걸 하나의 WebSocket 연결로 접어버려요. 오디오를 계속 흘려보내면 번역도 계속 흘러나와요. 서브초 수준의 저지연이고, 한 스트림에서 최대 5개 언어로 동시 번역돼요 — 다국적 컨퍼런스콜에서 참가자마다 모국어 자막을 받을 수 있다는 뜻이죠.

	기존 방식 (순차 번역)	DeepL Voice API
처리 방식	녹음 → STT → 번역 → 전달 (순차)	실시간 스트리밍 (동시 처리)
지연 시간	수 초~수십 초	서브초 수준 저지연
동시 언어	1개	최대 5개 동시
통합 방식	REST API (요청-응답)	WebSocket (양방향 스트리밍)
번역 정확도	범용 모델	전문가 블라인드 테스트에서 Google 대비 1.3배 선호
후편집 부담	Google 대비 2배 수정 필요	최소 수정 (GPT-4 대비 3배 적음)

'정확도 1.3배'가 추상적으로 들릴 수 있는데, 콜센터에선 이게 곧 후처리 부담이에요. 번역이 어긋나면 상담원이 다시 묻고, 고객이 다시 설명하고, 통화 시간이 늘어나요. 언어 전문가 블라인드 테스트에서 DeepL은 Google보다 1.3배, Microsoft보다 2.3배 더 선호됐고, 수정 횟수는 Google 대비 절반, GPT-4 대비 3분의 1이었어요. 실시간 자막은 틀릴 여유가 없는 자리라서, 이 격차가 크게 느껴지는 곳이에요.

그래서 어떻게 꽂는데 — 5단계 연동 레시피

구조는 생각보다 단순해요. 핵심은 'WebSocket 세션 하나를 열고, 오디오를 끊지 않고 흘려보내고, 자막을 받아서 화면에 뿌린다'예요.

API 플랜부터 확인
Voice API는 DeepL API Pro($5.49/월 기본) 이상에서 열려요. Enterprise 구독이면 v3 엔드포인트로 바로 접근돼요.
WebSocket 세션 열기
POST v3/voice/realtime으로 임시 스트리밍 URL과 인증 토큰을 받아요. 이 토큰은 1회용이라, 세션마다 새로 발급받아야 해요.
오디오 스트리밍 시작
받은 URL로 WebSocket 연결을 열고 모노 오디오 스트림을 전송해요. 함정 하나 — 연결 후 30초 안에 오디오를 보내야 세션이 유지돼요. 무음으로 띄워두면 끊겨요.
번역 결과 수신
원본 언어 전사(transcription)와 타깃 언어 번역이 실시간으로 돌아와요. 한 세션은 최대 1시간까지 연속 유지돼요 — 긴 상담이나 회의도 한 연결로 커버되는 거죠.
기존 시스템에 자막으로 박기
받은 텍스트를 컨택센터 소프트웨어, CRM, 화상회의 도구에 자막이나 실시간 텍스트로 표시하면 끝이에요. 상담원 화면 한쪽에 고객 발화 자막을 띄우는 게 가장 흔한 1차 구현이에요.

꽂기 전에 알아야 할 함정

공식 DeepL SDK에는 아직 Voice API가 들어와 있지 않아요. 그래서 WebSocket 클라이언트 라이브러리를 직접 붙여야 해요. 빠르게 손맛부터 보고 싶다면, Voice API를 지원하는 DeepL CLI로 먼저 스트림을 쏴보고 응답 포맷을 눈으로 확인한 뒤 코드로 옮기는 걸 추천해요.

한 단계 더 — 자막 말고 '음성으로' 돌려받기

여기까지가 자막(텍스트) 구현이라면, 그다음 칸이 있어요. Voice-to-Voice 실시간 통역(얼리 액세스)이에요. 번역된 텍스트가 아니라 번역된 음성을 바로 들려주는 기능이라, 상담원이 고객의 말을 자기 언어로 '듣는' 거죠. 자막을 읽느라 시선이 분산되는 부담이 사라져요. 얼리 액세스 단계라 1차 구현은 자막으로 가고, Voice-to-Voice는 로드맵에 올려두는 게 현실적이에요.

같은 음성 번역을 '개발 없이' 쓰는 두 갈래

API를 직접 붙이는 게 늘 정답은 아니에요. 코드를 안 짜고도 같은 엔진을 쓰는 길이 두 개 더 있어요. 자기 상황에 맞는 칸을 고르세요.

1/3

Voice for Meetings — 회의에 바로

Teams·Zoom에 붙이는 실시간 번역 자막. 참가자마다 모국어로 캡션을 봐요. 회의 데이터는 메모리에서만 처리되고 종료 후 삭제돼요. 개발 0, 회의 다국어화가 목표라면 여기.

2/3

Voice for Conversations — 대면 1:1

대면 대화용 모바일 앱. 한 기기에서 양쪽이 동시에 번역을 보는 Split View 제공. 현장 응대·대면 상담이라면 여기.

3/3

Voice API — 자사 제품에 임베드

위 5단계로 직접 통합하는 길. 컨택센터·CRM·자체 플랫폼에 음성 번역을 박아 넣어요. 제품화·자동화가 목표라면 여기.

이미 돌아가는 현장

IT 컨설팅 기업 Inetum은 DeepL Voice로 지원팀을 국가별로 분산 배치해 언어와 무관하게 전 직원을 지원하고 있어요. 글로벌 제빵 기업 Brioche Pasquier는 Voice for Meetings 도입 후 "국가 간 사이트의 협업 장벽이 사라졌다"고 했고요. Forrester 연구에선 DeepL 도입 기업이 번역 시간 90% 감소, 업무량 50% 절감, ROI 345%를 기록했어요(텍스트 번역 포함 수치).

한 줄로 정리하면 — WebSocket 세션 하나 열고, 모노 오디오를 30초 안에 흘려보내기 시작하고, 돌아오는 자막을 상담원 화면에 박는다. '영어 가능한 상담원에게 연결' 멘트를 코드 몇 줄로 은퇴시키는 게 생각보다 가까이 와 있어요.

🔗

더 깊이 파고 싶다면

DeepL Voice API 공식 문서

WebSocket 연결, 오디오 포맷, 세션 관리까지 개발자가 필요한 모든 레퍼런스

DeepL Voice 제품 페이지

Meetings, Conversations, API 세 가지 모델의 차이와 데모를 한눈에 확인

DeepL Voice 소개 블로그

Voice 제품군의 탄생 배경과 비전을 DeepL이 직접 설명하는 공식 블로그 포스트

DeepL 차세대 LLM 번역 정확도 분석

Google, GPT-4 대비 블라인드 테스트 결과와 언어별 성능 비교 데이터

국경 없는 컨택센터 — DeepL 블로그

실시간 번역으로 다국어 고객 지원팀을 구축하는 전략과 사례

DeepL CLI — GitHub

Translate, Write, Voice API를 커맨드라인에서 바로 테스트할 수 있는 공식 CLI 도구

자주 묻는 질문

Voice API 가격이 얼마인가요? 텍스트 번역 API처럼 글자 수 과금인가요?

Voice API는 DeepL API Pro($5.49/월 기본) 이상에서 사용할 수 있지만, 음성 번역의 세부 과금 체계는 아직 공개되지 않았어요. Enterprise 구독자는 영업팀을 통해 별도 견적을 받을 수 있고, 텍스트 API와 달리 스트리밍 시간 기반 과금일 가능성이 높아요.

한국어 음성 인식도 지원하나요? 정확도는 어떤가요?

네, 한국어를 포함해 13개 언어의 음성 인식을 지원해요. 실시간 자막 번역은 DeepL 번역기가 지원하는 33개 언어 전체로 가능하고요. 한국어-영어 번역은 DeepL의 차세대 모델에서 기존 대비 1.7배 품질이 향상됐어요.

기존 컨택센터 소프트웨어(Genesys, Zendesk 등)에 어떻게 연동하나요?

Voice API는 WebSocket 기반이라서, 컨택센터 소프트웨어의 오디오 스트림을 WebSocket으로 전달하고 번역 결과를 상담원 화면에 표시하는 미들웨어를 구축하면 돼요. 공식 SDK 통합은 아직이지만, DeepL CLI나 일반 WebSocket 라이브러리로 바로 개발할 수 있어요.

회의 녹음 데이터가 DeepL 서버에 저장되나요? 보안이 걱정돼요.

DeepL은 모든 음성 데이터를 메모리에서만 임시 처리하고, 세션이 끝나면 즉시 삭제해요. 전송 중 암호화가 적용되고, 고객 데이터를 AI 모델 학습에 절대 사용하지 않는다고 명시하고 있어요. GDPR 준수 EU 서버에서 처리되는 것도 장점이에요.