텍스트로 최대 90분 길이의 자연스러운 음성 생성

VibeVoice는 텍스트로부터 팟캐스트와 같은 장시간 대화형 오디오를 생성하는 프레임워크임

실시간 텍스트-음성 변환 모델을 포함하여 낮은 지연 시간의 음성 생성을 지원

딥페이크 위험 완화를 위해 임베디드 형식의 음성 프롬프트를 제공

초저 프레임 레이트 기반의 효율적인 음성 처리

VibeVoice는 7.5Hz의 초저 프레임 레이트에서 작동하는 연속 음성 토크나이저를 핵심 기술로 사용한다. 구체적으로 음향 및 의미 토크나이저를 통해 오디오 충실도를 유지하면서 긴 시퀀스 처리의 계산 효율성을 크게 향상시킨다. 따라서 긴 대화형 음성 생성에 필요한 자원 소모를 최소화하고, 실시간 처리를 가능하게 한다.

LLM과 확산 모델을 활용한 자연스러운 음성 생성

VibeVoice는 텍스트 컨텍스트와 대화 흐름을 이해하기 위해 대규모 언어 모델(LLM)을 활용한다. 확산 모델을 통해 고품질 음향 디테일을 생성하여 자연스러운 음성을 구현한다. 따라서 다중 화자의 음성을 일관성 있게 생성하고, 장시간 대화에서도 끊김 없는 흐름을 유지한다. Qwen2.5 1.5b 모델을 기반으로 하여, 더욱 발전된 음성 합성을 제공한다.

딥페이크 위험 완화 및 책임감 있는 사용

VibeVoice는 딥페이크 위험을 완화하기 위해 임베디드 형식의 음성 프롬프트를 제공한다. 반면, 모델의 잠재적 편향성과 오류에 대한 주의가 필요하다. 따라서 사용자는 생성된 콘텐츠의 정확성을 검증하고, AI 생성 콘텐츠 사용 시 공개해야 한다. 상업적 사용은 추가적인 테스트와 개발을 거쳐야 한다.