ElevenLabs v3 official cover art with gradient background

eleven-public-cdn.elevenlabs.io

10분 녹음으로 잃은 목소리를 되찾다 — ElevenLabs v3, 오늘 무료로 써보는 법

ElevenLabs v3, AI 음성 합성, Audio Tags, 11 VoicesElevenLabs v3, Text to Dialogue, AI TTS, 음성 복원, ALS, 11 Voices

ElevenLabs debuts 11 Voices docuseries at SXSW — 1 Million Voices campaign

Eleven v3: Most Expressive AI TTS Model Launched

ElevenLabs Audio Tags: More control over AI Voices

10분. 잃어버린 목소리를 되찾는 데 필요한 시간이에요.

배우 Eric Dane은 ALS로 말하는 능력을 잃었어요. 그런데 ElevenLabs가 그의 옛 녹음 10분을 가지고 거의 구분 불가능한 디지털 음성을 만들어냈고, 지금 그는 다시 자기 목소리로 이야기해요. 같은 회사가, 같은 달, 오디오북 작가에게는 텍스트에 [whispers] 한 줄을 넣어 속삭이는 음성을 만들 도구를 쥐여줬어요.

이게 ElevenLabs v3의 진짜 이야기예요. "AI 음성이 좋아졌다"가 아니라, 하나의 기술이 누군가에겐 잃은 정체성을 돌려주고, 누군가에겐 콘텐츠 제작의 룰을 바꾼다는 거예요. 이 글은 그 기술이 정확히 뭘 할 수 있는지, 그리고 당신이 오늘 무료로 어떻게 써보는지를 다뤄요.

3초 요약

Eleven v3 출시 (70+ 언어) → Audio Tags로 감정·비언어 제어 → Text to Dialogue API (멀티 보이스) → 11 Voices: 음성 손실자 100만 명 복원 캠페인

"읽어주는" 음성에서 "연기하는" 음성으로

2026년 2월 12일 출시된 Eleven v3는 ElevenLabs가 "역대 가장 표현력 높은 모델"이라 부르는 TTS예요. 차이를 한 문장으로 줄이면 이래요 — 이전 모델(Multilingual v2)이 텍스트를 자연스럽게 읽는 데 집중했다면, v3는 연기하는 걸 목표로 만들어졌어요.

그 "연기"를 가능하게 하는 게 세 가지 기능이에요. 하나씩, 무엇을 할 수 있는지 중심으로 볼게요.

1. Audio Tags — 텍스트 안에 감정을 직접 적는다

대괄호 태그로 음성의 감정과 행동을 지시할 수 있어요. [whispers], [excited], [sighs], [laughs] 같은 태그를 문장 사이에 끼워 넣으면 모델이 그 지점에서 톤과 속도를 바꿔요. 후처리 이펙트가 아니라 음성 생성 단계에서 반영돼요.

더 나아가 [gunshot], [explosion] 같은 효과음 태그까지 지원해요. 오디오북이나 게임 대사에서 효과음을 따로 편집해 얹을 필요가 줄어든다는 뜻이에요. 대본 한 줄이 곧 연출 지시서가 되는 셈이죠.

2. Text to Dialogue API — 여러 목소리를 한 번에 엮는다

최대 10개의 고유 음성을 지정하면, 각 캐릭터가 서로의 말투에 반응하듯 자연스러운 대화를 한 번에 생성해요. 예전처럼 화자별로 따로 뽑아서 수동으로 이어 붙이는 작업이 사라지는 거예요. 팟캐스트, 오디오북, 게임 — 멀티 화자가 필요한 모든 곳에 쓸 수 있어요.

3. 70개 이상 언어 — 한국어 포함, 악센트 자동 조절

한국어, 일본어, 중국어, 아랍어 등 아시아·중동 언어까지 폭넓게 커버하고, 텍스트 내용에 따라 악센트를 자동으로 맞춰요. v2 세대의 29개에서 두 배 이상 늘어난 숫자예요.

70+

지원 언어

블라인드 리스닝 테스트 1위

2.83%

단어 오류율 (업계 최저)

독립 블라인드 리스닝 테스트에서 ElevenLabs는 37표로 1위를 차지했어요. 2위는 19표. 단어 오류율(WER)도 2.83%로 업계 최저 수준이에요. 기술 분석가들은 v3의 핵심 변화를 "프로소디 기반 합성에서 컨텍스트 인지 표현 모델링으로의 전환"이라고 정리해요. 감정과 의도를 후처리 효과가 아니라 생성 토큰 자체에 녹여서, 긴 텍스트에서도 감정 톤이 흐트러지지 않고 유지된다는 뜻이에요.

그래서 어떤 모델을 골라야 하나

여기서 멈추면 안 돼요. v3가 가장 표현력 높은 건 맞지만, 항상 정답은 아니에요. 실제로 써먹으려면 v3의 한계까지 알아야 해요. ElevenLabs는 일부러 모델을 용도별로 나눠뒀거든요.

	기존 TTS (v2 세대)	Eleven v3
감정 표현	톤 일정, 뉘앙스 부족	Audio Tags로 감정·비언어 실시간 제어
멀티 화자	개별 생성 후 수동 편집	Text to Dialogue API로 자연스러운 대화 한 번에 생성
언어	29개 (Multilingual v2)	70개 이상 + 자동 악센트 적응
비언어 표현	불가	[laughs], [sighs], [whispers] 등 인라인 태그
효과음	별도 편집 필요	[gunshot], [explosion] 등 태그로 삽입
문자 한도	10,000자 (~10분)	5,000자 (~5분) — 품질 우선 설계
기술 접근	프로소디 기반 합성	컨텍스트 인지 표현 모델링

표에서 가장 중요한 줄은 마지막에서 두 번째, 문자 한도예요. v3는 한 번에 5,000자(~5분)까지만 처리해요. v2의 10,000자, Flash v2.5의 40,000자보다 짧아요. 표현력을 끌어올린 대가로 연산 비용이 비싸기 때문이에요. 그래서 ElevenLabs의 권장 조합은 이래요 — 표현력이 중요한 프리미엄 콘텐츠는 v3, 긴 일반 내레이션은 v2, 실시간 대화는 Flash v2.5(레이턴시 ~75ms). "무조건 최신 모델"이 아니라 용도에 맞춰 갈아 끼우는 게 핵심이에요.

프로덕션 전에 반드시 알아둘 점

v3는 아직 알파 단계여서 가끔 버그가 있어요. 긴 콘텐츠에서 악센트가 중간에 바뀌는 현상이 보고됐고, 실패한 생성을 다시 돌리느라 실제 비용이 표시 가격의 2.8배에 달했다는 리뷰도 있어요. 중요한 작업은 v2와 병행하면서, v3는 짧은 핵심 구간에 집중 투입하는 식으로 쓰는 게 안전해요.

오늘 5분 안에 직접 써보기

좋은 소식은, 이 모든 걸 무료로 만져볼 수 있다는 거예요. 순서대로 따라 하면 돼요.

무료 계정 만들기
elevenlabs.io에서 가입하면 월 10,000자를 무료로 쓸 수 있어요. 모든 사용자에게 v3 접근 권한이 열려 있어요.
v3 모델로 전환
Text to Speech 화면에서 모델 드롭다운을 열고 "Eleven v3"를 선택하세요. 기본값이 v2라서 수동으로 바꿔줘야 해요. (이걸 빠뜨리면 표현력 차이를 못 느껴요.)
Audio Tags로 감정 전환 체감하기
이 한 줄을 그대로 붙여넣어 보세요 — [whispers] 비밀인데요 [normal] 사실은 아무것도 아니에요 [laughs]. 같은 문장이 톤을 세 번 바꾸는 걸 바로 들을 수 있어요.
Text to Dialogue로 대화 만들기
플랫폼 또는 API에서 두 명의 음성을 지정하고 대화 텍스트를 입력해 보세요. 각 캐릭터가 서로에게 반응하는 대화가 한 번에 나와요.
긴 작업은 모델을 갈아 끼우기
5,000자가 넘어가는 내레이션은 v2로, 실시간 응답이 필요한 곳은 Flash v2.5로 돌리세요. 처음부터 용도별 분리를 습관으로 두면 비용과 품질을 둘 다 잡아요.

같은 기술의 다른 얼굴 — 11 Voices

여기까지가 "써먹는 법"이라면, 마지막으로 이 기술이 사람에게 무엇을 하는지 한 장면만 보고 갈게요.

2026년 3월 11일 SXSW에서 공개된 다큐시리즈 11 Voices에는, ALS·뇌성마비 등으로 목소리를 잃은 11명이 등장해요. 이들은 AI로 복원한 자기 목소리로 자신의 이야기를 직접 내레이션해요. 앞에서 본 Eric Dane도 그중 하나고, 그의 아내 Rebecca Gayheart Dane이 프로젝트의 대변인으로 나섰어요.

"누군가 목소리를 잃으면, 독립성과 사랑하는 사람과의 연결을 함께 잃는 거예요." — Mati Staniszewski, ElevenLabs 공동 창업자

앞서 본 그 기술 — 10분 녹음으로 음성을 복원하고, 보조 기기와 연동해 일상 대화에 쓰는 — 이 바로 여기에 쓰여요. 오디오북에 [laughs]를 넣는 기술과 잃은 목소리를 돌려주는 기술이 같은 모델이라는 게, v3가 단순한 스펙 업그레이드가 아닌 이유예요.

1 Million Voices 캠페인

ElevenLabs는 음성 손실을 겪는 100만 명에게 무료 음성 복원 기술을 제공하겠다고 약속했어요. 현물 기부 가치 10억 달러 규모. 현재까지 약 7,000명을 지원했고, 49개국 800개 이상의 비영리 파트너와 협력 중이에요. 공식 트레일러는 마이클 케인 경이 ElevenLabs 음성으로 내레이션했어요. 본인 또는 주변에 음성 손실을 겪는 분이 있다면, elevenlabs.io/impact-program에서 무료 평생 라이선스를 신청할 수 있어요.

🔗

더 깊이 파고 싶다면

Eleven v3 공식 발표

ElevenLabs 공식 블로그. v3 모델의 기술 스펙과 데모 음성을 직접 들어볼 수 있어요.

Audio Tags 가이드

감정, 비언어, 효과음 태그의 전체 목록과 활용법. 실전 예제 포함.

Text to Dialogue API 문서

멀티 화자 대화 생성 API 레퍼런스. 코드 예제와 파라미터 설명.

11 Voices 다큐시리즈 프레스 릴리스

SXSW 공개, 1 Million Voices 캠페인, Eric Dane 이야기의 전체 맥락.

Impact Program — 무료 음성 복원 신청

음성 손실을 겪는 분을 위한 무료 평생 라이선스 신청 페이지.

자주 묻는 질문

ElevenLabs v3는 무료로 쓸 수 있나요?

네. 무료 계정으로 월 10,000자까지 v3를 포함한 모든 모델을 사용할 수 있어요. 유료 플랜은 Starter $5/월(30,000자)부터 시작해요.

Audio Tags는 어떤 종류가 있나요?

감정 태그([excited], [sad], [angry]), 비언어 태그([whispers], [laughs], [sighs]), 효과음 태그([gunshot], [explosion], [clapping]) 등이 있어요. 대괄호 안에 원하는 지시를 넣으면 모델이 해석해서 음성에 반영해요.

Text to Dialogue API는 실시간 대화에 쓸 수 있나요?

아니요. Text to Dialogue는 사전 제작 콘텐츠(오디오북, 팟캐스트, 게임 대사)용이에요. 실시간 대화에는 레이턴시 75ms의 Flash v2.5 모델이 더 적합해요.

음성 복원 프로그램은 누가 신청할 수 있나요?

ALS, 뇌성마비, 뇌졸중 등 영구적 음성 손실을 겪는 분이라면 누구나 elevenlabs.io/impact-program에서 무료 평생 라이선스를 신청할 수 있어요. 과거 녹음 약 10분이면 충분해요.

v3와 v2 중 어떤 걸 써야 하나요?

감정 표현이 중요한 오디오북, 게임, 드라마틱한 콘텐츠에는 v3가 최적이에요. 안정적인 품질의 일반 내레이션이나 기업 영상에는 v2가 여전히 좋은 선택이에요. v3는 아직 알파 단계라 가끔 버그가 있을 수 있어요.

Written by 엠마

AI 크리에이티브의 가능성을 실험하고 기록합니다.

이 레퍼런스가 도움이 되셨나요?

매주 엄선된 레퍼런스를 메일로 받아보세요

이 레퍼런스 공유하기

다음 읽을 레퍼런스

직속 보고자 1명 vs 60명 — 당신 팀에 맞는 숫자는 따로 있다

다리오 아모데이는 직속 보고자가 1명, 젠슨 황은 60명입니다. 정답 없는 직속 보고자 수, 학계 컨센서스와 5가지 실전 기준으로 내 팀에 맞는 숫자를 찾는 법을 정리했어요.

이런 가이드도 추천해요

비슷한 주제의 AI 활용 가이드를 더 살펴보세요

static.cryptobriefing.com

벤처캐피탈 자금조달벤치마크 캐피탈, 성장펀드, AI 스타트업 밸류에이션, 벤처캐피탈 전략, 시리즈B 자금조달

벤치마크는 20년째 몸집을 안 키웠다 — 근데 이번엔 $20억을 모았다

20년간 4억 2,500만 달러 펀드만 고수하던 벤처캐피탈 벤치마크가 20억 달러 규모 첫 성장펀드를 만들었다. AI 자금조달 지형 변화와 창업자가 지금 체크할 것들.

44%에서 59%로 — 라운드가 오를수록 비-AI 창업가가 더 밀리는 이유

tech-insider.org

planning비AI 스타트업 투자, 시리즈B 펀딩, AI 밸류에이션 프리미엄, 벤처캐피탈 2026, Fundraise Insider

44%에서 59%로 — 라운드가 오를수록 비-AI 창업가가 더 밀리는 이유

프리시드 44%였던 AI 비중이 시리즈B에선 59%로 뛰어요. Fundraise Insider Q1 2026 데이터로 본 비AI 스타트업 투자 유치의 계단식 함정과 시리즈B 준비 전략을 정리했습니다.

제미나이 3.5 프로는 아직도 안 나왔다 — 그 사이 구글은 인재 4명과 2,250억 달러를 잃었다

tech-insider.org

제미나이 3.5 프로 출시 지연제미나이 3.5 프로, Gemini 3.5 Pro 지연, AI 로드맵, 구글 딥마인드, 인재 유출, AI 모델 선택 기준

제미나이 3.5 프로는 아직도 안 나왔다 — 그 사이 구글은 인재 4명과 2,250억 달러를 잃었다

제미나이 3.5 프로가 6월 약속을 어기고 두 번 더 밀렸다. 그 사이 핵심 연구자 4명이 떠나고 구글 시총 2,250억 달러가 증발했다 — AI 로드맵 약속을 판단하는 5가지 기준.

다음 →직속 보고자 1명 vs 60명 — 당신 팀에 맞는 숫자는 따로 있다