10분. 잃어버린 목소리를 되찾는 데 필요한 시간이에요.
배우 Eric Dane은 ALS로 말하는 능력을 잃었어요. 그런데 ElevenLabs가 그의 옛 녹음 10분을 가지고 거의 구분 불가능한 디지털 음성을 만들어냈고, 지금 그는 다시 자기 목소리로 이야기해요. 같은 회사가, 같은 달, 오디오북 작가에게는 텍스트에 [whispers] 한 줄을 넣어 속삭이는 음성을 만들 도구를 쥐여줬어요.
이게 ElevenLabs v3의 진짜 이야기예요. "AI 음성이 좋아졌다"가 아니라, 하나의 기술이 누군가에겐 잃은 정체성을 돌려주고, 누군가에겐 콘텐츠 제작의 룰을 바꾼다는 거예요. 이 글은 그 기술이 정확히 뭘 할 수 있는지, 그리고 당신이 오늘 무료로 어떻게 써보는지를 다뤄요.
"읽어주는" 음성에서 "연기하는" 음성으로
2026년 2월 12일 출시된 Eleven v3는 ElevenLabs가 "역대 가장 표현력 높은 모델"이라 부르는 TTS예요. 차이를 한 문장으로 줄이면 이래요 — 이전 모델(Multilingual v2)이 텍스트를 자연스럽게 읽는 데 집중했다면, v3는 연기하는 걸 목표로 만들어졌어요.
그 "연기"를 가능하게 하는 게 세 가지 기능이에요. 하나씩, 무엇을 할 수 있는지 중심으로 볼게요.
1. Audio Tags — 텍스트 안에 감정을 직접 적는다
대괄호 태그로 음성의 감정과 행동을 지시할 수 있어요. [whispers], [excited], [sighs], [laughs] 같은 태그를 문장 사이에 끼워 넣으면 모델이 그 지점에서 톤과 속도를 바꿔요. 후처리 이펙트가 아니라 음성 생성 단계에서 반영돼요.
더 나아가 [gunshot], [explosion] 같은 효과음 태그까지 지원해요. 오디오북이나 게임 대사에서 효과음을 따로 편집해 얹을 필요가 줄어든다는 뜻이에요. 대본 한 줄이 곧 연출 지시서가 되는 셈이죠.
2. Text to Dialogue API — 여러 목소리를 한 번에 엮는다
최대 10개의 고유 음성을 지정하면, 각 캐릭터가 서로의 말투에 반응하듯 자연스러운 대화를 한 번에 생성해요. 예전처럼 화자별로 따로 뽑아서 수동으로 이어 붙이는 작업이 사라지는 거예요. 팟캐스트, 오디오북, 게임 — 멀티 화자가 필요한 모든 곳에 쓸 수 있어요.
3. 70개 이상 언어 — 한국어 포함, 악센트 자동 조절
한국어, 일본어, 중국어, 아랍어 등 아시아·중동 언어까지 폭넓게 커버하고, 텍스트 내용에 따라 악센트를 자동으로 맞춰요. v2 세대의 29개에서 두 배 이상 늘어난 숫자예요.
독립 블라인드 리스닝 테스트에서 ElevenLabs는 37표로 1위를 차지했어요. 2위는 19표. 단어 오류율(WER)도 2.83%로 업계 최저 수준이에요. 기술 분석가들은 v3의 핵심 변화를 "프로소디 기반 합성에서 컨텍스트 인지 표현 모델링으로의 전환"이라고 정리해요. 감정과 의도를 후처리 효과가 아니라 생성 토큰 자체에 녹여서, 긴 텍스트에서도 감정 톤이 흐트러지지 않고 유지된다는 뜻이에요.
그래서 어떤 모델을 골라야 하나
여기서 멈추면 안 돼요. v3가 가장 표현력 높은 건 맞지만, 항상 정답은 아니에요. 실제로 써먹으려면 v3의 한계까지 알아야 해요. ElevenLabs는 일부러 모델을 용도별로 나눠뒀거든요.
| 기존 TTS (v2 세대) | Eleven v3 | |
|---|---|---|
| 감정 표현 | 톤 일정, 뉘앙스 부족 | Audio Tags로 감정·비언어 실시간 제어 |
| 멀티 화자 | 개별 생성 후 수동 편집 | Text to Dialogue API로 자연스러운 대화 한 번에 생성 |
| 언어 | 29개 (Multilingual v2) | 70개 이상 + 자동 악센트 적응 |
| 비언어 표현 | 불가 | [laughs], [sighs], [whispers] 등 인라인 태그 |
| 효과음 | 별도 편집 필요 | [gunshot], [explosion] 등 태그로 삽입 |
| 문자 한도 | 10,000자 (~10분) | 5,000자 (~5분) — 품질 우선 설계 |
| 기술 접근 | 프로소디 기반 합성 | 컨텍스트 인지 표현 모델링 |
표에서 가장 중요한 줄은 마지막에서 두 번째, 문자 한도예요. v3는 한 번에 5,000자(~5분)까지만 처리해요. v2의 10,000자, Flash v2.5의 40,000자보다 짧아요. 표현력을 끌어올린 대가로 연산 비용이 비싸기 때문이에요. 그래서 ElevenLabs의 권장 조합은 이래요 — 표현력이 중요한 프리미엄 콘텐츠는 v3, 긴 일반 내레이션은 v2, 실시간 대화는 Flash v2.5(레이턴시 ~75ms). "무조건 최신 모델"이 아니라 용도에 맞춰 갈아 끼우는 게 핵심이에요.
프로덕션 전에 반드시 알아둘 점
v3는 아직 알파 단계여서 가끔 버그가 있어요. 긴 콘텐츠에서 악센트가 중간에 바뀌는 현상이 보고됐고, 실패한 생성을 다시 돌리느라 실제 비용이 표시 가격의 2.8배에 달했다는 리뷰도 있어요. 중요한 작업은 v2와 병행하면서, v3는 짧은 핵심 구간에 집중 투입하는 식으로 쓰는 게 안전해요.
오늘 5분 안에 직접 써보기
좋은 소식은, 이 모든 걸 무료로 만져볼 수 있다는 거예요. 순서대로 따라 하면 돼요.
- 무료 계정 만들기
elevenlabs.io에서 가입하면 월 10,000자를 무료로 쓸 수 있어요. 모든 사용자에게 v3 접근 권한이 열려 있어요. - v3 모델로 전환
Text to Speech 화면에서 모델 드롭다운을 열고 "Eleven v3"를 선택하세요. 기본값이 v2라서 수동으로 바꿔줘야 해요. (이걸 빠뜨리면 표현력 차이를 못 느껴요.) - Audio Tags로 감정 전환 체감하기
이 한 줄을 그대로 붙여넣어 보세요 —[whispers] 비밀인데요 [normal] 사실은 아무것도 아니에요 [laughs]. 같은 문장이 톤을 세 번 바꾸는 걸 바로 들을 수 있어요. - Text to Dialogue로 대화 만들기
플랫폼 또는 API에서 두 명의 음성을 지정하고 대화 텍스트를 입력해 보세요. 각 캐릭터가 서로에게 반응하는 대화가 한 번에 나와요. - 긴 작업은 모델을 갈아 끼우기
5,000자가 넘어가는 내레이션은 v2로, 실시간 응답이 필요한 곳은 Flash v2.5로 돌리세요. 처음부터 용도별 분리를 습관으로 두면 비용과 품질을 둘 다 잡아요.
같은 기술의 다른 얼굴 — 11 Voices
여기까지가 "써먹는 법"이라면, 마지막으로 이 기술이 사람에게 무엇을 하는지 한 장면만 보고 갈게요.
2026년 3월 11일 SXSW에서 공개된 다큐시리즈 11 Voices에는, ALS·뇌성마비 등으로 목소리를 잃은 11명이 등장해요. 이들은 AI로 복원한 자기 목소리로 자신의 이야기를 직접 내레이션해요. 앞에서 본 Eric Dane도 그중 하나고, 그의 아내 Rebecca Gayheart Dane이 프로젝트의 대변인으로 나섰어요.
"누군가 목소리를 잃으면, 독립성과 사랑하는 사람과의 연결을 함께 잃는 거예요." — Mati Staniszewski, ElevenLabs 공동 창업자
앞서 본 그 기술 — 10분 녹음으로 음성을 복원하고, 보조 기기와 연동해 일상 대화에 쓰는 — 이 바로 여기에 쓰여요. 오디오북에 [laughs]를 넣는 기술과 잃은 목소리를 돌려주는 기술이 같은 모델이라는 게, v3가 단순한 스펙 업그레이드가 아닌 이유예요.
1 Million Voices 캠페인
ElevenLabs는 음성 손실을 겪는 100만 명에게 무료 음성 복원 기술을 제공하겠다고 약속했어요. 현물 기부 가치 10억 달러 규모. 현재까지 약 7,000명을 지원했고, 49개국 800개 이상의 비영리 파트너와 협력 중이에요. 공식 트레일러는 마이클 케인 경이 ElevenLabs 음성으로 내레이션했어요. 본인 또는 주변에 음성 손실을 겪는 분이 있다면, elevenlabs.io/impact-program에서 무료 평생 라이선스를 신청할 수 있어요.





