ElevenLabs, 역대 가장 표현력 넘치는 TTS 모델 ‘Eleven v3 alpha’ 발표

감정 표현과 대화 모드를 혁신해 음성 합성을 새로운 ‘연기’의 영역으로

뉴스 제공

2025-06-09 13:30

뉴욕--(뉴스와이어)--ElevenLabs가 TTS 모델 ‘Eleven v3 (alpha)’를 출시했다.

새로운 아키텍처 기반으로 설계된 Eleven v3는 텍스트를 ‘읽어 주는’ 단계를 넘어 실제 배우처럼 ‘연기’하며, 등장인물을 바꾸거나 문장 중간에 톤을 전환할 수 있다. 또한 속삭임, 웃음소리, 숨 소리, 박수 등의 지시에도 실제 음성과 구별하기 힘든 자연스러움을 구현했다. 음성 AI는 이제 음성 합성을 넘어 마치 공연을 연출하는 듯한 영역까지 도달했다.

이번 Eleven v3는 알파 버전인 만큼 기존 모델보다 더 세부적인 지시가 필요하지만, 그만큼 뛰어난 성능을 최대한 끌어낼 수 있다. 그 결과 만들어지는 음성은 실제 인간이 말하는 듯한 감정과 리얼리티로 가득 차 듣는 이에게 깊은 감동을 준다.

최신 모델의 지원 언어는 기존의 32개에서 70개 이상으로 늘었다. 앞으로도 업데이트를 통해 사용성을 더욱 향상시킬 예정이다.

아래는 구체적인 이해를 돕기 위한 샘플 음성이다.

· v3 샘플 영상 모음
· v3 한국어 음성 샘플

v3의 주요 발전 사항

- 70개 이상 언어 지원: 세계 인구 커버리지가 60%에서 90%로 확대됐다.
- 대화 모드: 화자 전환, 끼어들기, 톤·감정 흐름을 자연스럽게 처리한다.
- 음성 태그 지원: 텍스트에 ‘속삭임’, ‘웃음’, ‘아이러니한 톤’ 등 지시 및 ‘군중 환호’, ‘문 삐걱거리는 소리’와 같은 효과음을 추가해 현장감을 높인다.
- 폭넓은 감정 표현: 한 문장 내에서도 감정과 속도 변화를 자유롭게 표현한다.
- 모든 사용자가 이용 가능: Eleven v3 (alpha)는 링크에서 체험할 수 있다.
- 스트리밍 지원(곧 제공 예정): 콜센터 및 실시간 대화형 에이전트에도 곧 지원된다.
- Eleven v3 (alpha)의 공개 API: 곧 공개될 예정이다. 얼리 액세스를 원한다면 영업팀에 문의하면 된다.

Eleven v3가 주목받는 분야

Eleven v3는 콘텐츠 창작자, 개발자 및 기업들이 오디오북, 캐릭터 대화, 인터랙티브 미디어 제작 등 표현력이 중요한 콘텐츠를 만들 때 특히 효과적이다. 더욱 정교한 음성 표현 조정이 가능하며, 콘텐츠에 맞는 적절한 지시가 고품질 음성 생성의 비결이다.

실시간 대화형 AI 등 낮은 지연시간이 중요한 경우에는 기존 v2.5 모델 사용을 권장하며, 현재 v3 실시간 버전을 개발 중이다.

v3가 가져올 영향

Eleven v3는 음성 생성에 진정한 표현력을 더했다는 점에서 혁신적이다. 문장 내에서 톤과 감정의 세부 조정, 단 한 번의 녹음으로 화자 전환이 가능해 마치 하나의 연기처럼 자연스러운 창작이 가능하다. 이는 AI 음성을 ‘읽기’라는 한계를 넘어 ‘퍼포먼스’라는 새로운 창작 영역으로 확장한다.

이번 v3 출시 기념으로 6월 한 달간 UI 이용 시 80% 할인 이벤트를 진행한다. http://elevenlabs.io/v3 에서 제품을 체험해 볼 수 있다.

ElevenLabs의 공동창업자 겸 CEO Mati Staniszewski는 “Eleven v3는 감정과 표현, 비언어적 지시까지 이해하고 제어할 수 있는 가장 표현력이 뛰어난 TTS 모델이다. 오디오 태그를 통해 속삭임, 웃음, 억양 변경, 노래 지시까지 가능하다. 70개 이상의 언어로 모든 대본에 맞춰 속도, 감정, 스타일을 자유롭게 조정할 수 있다. 우리의 글로벌 미션으로 이 모델을 70개 이상의 언어로 확장한 것을 기쁘게 생각한다”며 “이번 릴리스는 공동 창업자인 Piotr Dabkowski와 그의 탁월한 팀의 비전과 리더십 덕분이다. 뛰어난 제품을 만드는 과정의 어려움을 극복하고 패러다임 시프트를 이뤄낸 성과에 매우 기쁘다. 앞으로 더욱 발전할 수 있도록 최선을 다하겠다”고 밝혔다.

한국어 TTS 기능 대폭 강화

많은 크리에이터와 기업이 원했던 한국어 TTS가 이번 v3에서 크게 발전했다. 정교한 감정 표현은 물론 ‘사투리’, ‘축구 중계 스타일’과 같은 특별한 요청도 자연스럽게 표현할 수 있다. 이를 통해 정부 기관, 지방 자치단체의 정보 전달부터 개인 크리에이터 콘텐츠에서 다양한 표현 가능성을 넓힐 것이다.

링크

· 메인 v3 페이지: http://elevenlabs.io/v3
· 어카운트 등록: https://elevenlabs.io/app/sign-up
· 프롬프트 가이드: https://elevenlabs.io/docs/best-practices/prompting/eleven-v3

Eleven Labs Inc 소개

일레븐랩(ElevenLabs)은 AI 음성 기술의 연구 및 실용화를 선도하는 테크놀로지 기업이다. CEO 마티 스타니스제프스키(Mati Staniszewski)와 CTO 피오트르 돔브코프스키(Piotr Dąbkowski, TIME지 선정 ‘AI Top 100 Innovators’)는 폴란드 바르샤바 출신의 소꿉친구로, 자국에서 상영되는 영화 등의 더빙 품질이 낮다는 문제의식에서 공동 창업의 아이디어를 얻었다. 이 회사는 지난 1년 동안 직원 수를 30명에서 160명으로 확장했으며, 현재는 런던·뉴욕·바르샤바에 거점을 두고 있다. 또한 2025년 1월에는 시리즈 C 라운드의 자금 조달을 완료했다. 일레븐랩은 ‘모든 사람이 다양한 목소리, 언어, 소리를 통해 정보에 접근할 수 있는 미래’를 미션으로 삼고 있으며, 음성 AI의 가능성을 확장하는 독보적인 통합형 플랫폼 구축에 도전하고 있다.

웹사이트: https://elevenlabs.io/