마이크로소프트(Microsoft)의 오픈소스 음성 AI, VibeVoice의 모든 것!

by DD
1개월 전
조회수 14

마이크로소프트(Microsoft)가 오픈소스 음성 AI 모델 VibeVoice를 공개, ASR 및 TTS 기능을 제공함

60분 분량의 음성 인식(ASR)90분 분량의 음성 합성(TTS)을 지원하며, 다국어 처리 가능

성능 및 정확도에 대한 논쟁과 함께, 오픈소스 라이선스에 대한 의견 차이 존재

모델 이름(Vibe)에 대한 비판적 시각과 함께, 기존 모델과의 비교가 이루어짐

VibeVoice ASR의 기술적 특징

VibeVoice-ASR은 최대 60분 길이의 오디오를 단일 패스로 처리하여 화자(Speaker) 정보, 타임스탬프(Timestamps), 내용(Content)을 구조화된 형태로 제공한다. 특히, 사용자 정의 핫워드(Customized Hotwords)를 지원하여 특정 도메인에 특화된 음성 인식 정확도를 높이는 것이 특징이다. 또한, 50개 이상의 언어를 지원하며, vLLM을 활용한 빠른 추론(Inference)을 지원한다.

VibeVoice TTS의 장점

VibeVoice-TTS는 최대 90분 길이의 음성을 생성하며, 최대 4명의 화자를 지원하여 자연스러운 대화 형식을 구현한다. 실시간 스트리밍(Streaming)을 위한 경량 모델인 VibeVoice-Realtime-0.5B도 제공하며, 0.5B 파라미터로 배포 친화적인 특징을 가진다. 하지만, 모델은 AI 환각(Hallucination) 및 부정확한 결과를 생성할 수 있으며, 책임감 있는 사용이 강조된다.

오픈소스 라이선스에 대한 커뮤니티의 시각

커뮤니티에서는 VibeVoice를 '오픈 웨이트(Open Weight)' 모델로 간주하며, 훈련 코드(Training Code)가 공개되지 않은 점을 지적한다. 이는 완전한 의미의 오픈소스와는 차이가 있다는 의견이다. 또한, Voxtral by Mistral과 같은 경쟁 모델과의 비교를 통해 VibeVoice의 성능에 대한 논쟁이 벌어지고 있다.

모델 이름 및 브랜드 전략에 대한 비판

일부 사용자들은 마이크로소프트(Microsoft)의 제품명 선정에 대한 비판적인 시각을 드러내며, Vibe라는 이름이 부적절하다는 의견을 제시했다. 또한, 'Copilot Voice'와 같은 일관성 있는 브랜드 전략 부재에 대한 아쉬움을 표했다. 이러한 의견들은 마이크로소프트(Microsoft)의 AI 제품군에 대한 전반적인 브랜드 전략에 대한 의문을 제기한다.

Microsoft VibeVoice: Open-Source Frontier Voice AI