350M 파라미터로 고품질 음성 합성, 다양한 언어 지원
by DD
5개월 전
조회수 15
Chatterbox는 Resemble AI에서 개발한 오픈소스 TTS(Text-to-Speech) 모델 제품군임.
Chatterbox-Turbo는 350M 파라미터로 저사양 환경에서도 고품질 음성 합성 가능.
다국어 지원, 워터마킹 기능 제공, 상업적 사용을 위한 TTS 서비스 제공.
Chatterbox-Turbo의 핵심 기술
Chatterbox-Turbo는 350M 파라미터의 경량화된 아키텍처를 사용하여 계산량과 VRAM 사용량을 줄였다. 구체적으로, 기존 모델의 병목 현상이었던 speech-token-to-mel 디코더를 1단계로 단순화하여 생성 속도를 향상시켰다. 따라서 저지연 음성 에이전트 및 다양한 창작 활동에 적합하며, Paralinguistic tags를 통해 자연스러운 표현을 지원한다.
다양한 언어 지원 및 음성 복제
Chatterbox는 23개 이상의 언어를 지원하는 Multilingual 모델을 제공하여 글로벌 서비스에 적합하다. Zero-shot cloning 기술을 통해, 짧은 오디오 샘플만으로 특정 화자의 음성을 복제할 수 있다. 따라서, 다국어 지원과 음성 복제 기능을 통해 다양한 사용자 요구를 충족시키며, 광범위한 활용성을 제공한다.
책임감 있는 AI를 위한 워터마킹
Chatterbox는 Perth 워터마커를 사용하여 생성된 오디오에 지속적인 워터마크를 삽입한다. 이 워터마크는 MP3 압축, 편집 등에도 강하며, 100%에 가까운 탐지 정확도를 유지한다. 따라서, AI 윤리를 고려하여 무단 사용 및 악용을 방지하고, 책임감 있는 AI 개발을 위한 노력을 보여준다.