텍스트로 음성 디자인, 음성 클로닝까지! VoxCPM2 TTS 출시

by DD
1개월 전
조회수 8

20억 파라미터(2B) 규모의 오픈소스 TTS 모델인 VoxCPM2가 출시됨

30개 언어 지원, 48kHz 고품질 음성 출력, 텍스트 기반 음성 디자인, 음성 클로닝 기능 제공

실시간 스트리밍(Real-time Streaming)을 지원하여 프로덕션 환경에 적합

VoxCPM2의 핵심 기능: 음성 디자인 및 클로닝

VoxCPM2는 텍스트만으로 음성 디자인이 가능하며, 컨트롤 가능한 음성 클로닝(Controllable Voice Cloning) 기능을 제공한다. 이는 기존 TTS 모델이 가진 획일적인 음색의 한계를 극복하고, 사용자가 원하는 음성을 직접 생성할 수 있도록 돕는다.

텍스트 기반 음성 디자인: 텍스트 입력만으로 감정, 억양, 스타일을 제어하여 다양한 음성 표현(Diverse Voice Expression) 가능

음성 클로닝: 소량의 음성 데이터로 타겟 음성(Target Voice)을 복제하여 개인화된 음성 생성

이러한 기능은 게임, 영상 제작, 챗봇 등 다양한 분야에서 활용될 수 있으며, 맞춤형 음성 콘텐츠(Custom Voice Content) 제작을 용이하게 한다.

48kHz 고품질 음성 출력 및 30개 언어 지원

VoxCPM2는 48kHz의 고품질 음성 출력을 지원하여, 자연스러운 음성(Natural Voice)을 제공한다. 또한 30개 언어를 지원하여, 다국어 환경에서도 활용 가능하다.

48kHz 샘플링 레이트(Sampling Rate): 고품질 오디오(High-Quality Audio)를 통해 몰입감 있는 청취 경험 제공

30개 언어 지원: 다양한 언어 환경에서 TTS 모델의 범용성(Versatility) 확보

실시간 스트리밍: 프로덕션 환경에서 빠른 응답 속도(Fast Response Speed)를 보장

이러한 특징은 팟캐스트, 오디오북, 교육 콘텐츠 등 다양한 분야에서 TTS 모델의 활용성(Usability)을 높인다.

오픈소스 모델의 장점과 활용 방안

VoxCPM2는 오픈소스 모델로, 누구나 자유롭게 사용하고 수정할 수 있다. 이는 TTS 기술의 접근성을 높이고, 기술 혁신(Technological Innovation)을 가속화하는 데 기여한다.

오픈소스 라이선스(Open Source License): 상업적 이용(Commercial Use) 포함 자유로운 사용 및 배포 가능

커뮤니티 기여(Community Contribution): 모델 개선 및 기능 추가를 위한 개발자 참여(Developer Participation) 유도

활용 분야: 게임, 영상 제작, 챗봇 등 다양한 분야에서 맞춤형 TTS 서비스(Custom TTS Service) 개발 가능

오픈소스 모델은 기술 발전의 속도를 높이고, TTS 기술의 대중화(Popularization)에 기여할 것으로 기대된다.

[VoxCPM2] Open-source 48kHz TTS with voice design and cloning