25MB 초소형 TTS 모델, 온디바이스(On-device) 음성 합성의 새로운 가능성!

Kitten TTS v0.8은 80M, 40M, 15M 매개변수(Parameter) 모델을 포함하며, 25MB 이하의 초소형 모델에서도 SOTA급 성능(State-of-the-Art Performance)을 달성함

CPU 최적화(CPU-optimized)를 통해 GPU 없이도 다양한 기기에서 실행 가능하며, 8개의 영어 음성 지원

온디바이스 AI(On-device AI)의 핵심 과제인 소형 모델의 성능 문제를 해결하고, 상용화 가능성을 제시함

커뮤니티에서는 모델의 품질과 크기에 대한 긍정적 평가와 함께, 표현력 제어(Expressive Control) 및 사용자 정의 음성(Custom Voice) 지원에 대한 요구가 제기됨

초소형 모델의 성능 및 기술적 특징

Kitten TTS v0.8은 80M, 40M, 15M 매개변수(Parameter) 모델을 제공하며, 특히 15M 모델은 25MB 이하의 크기에서도 SOTA(State-of-the-Art)급 표현력을 보여준다. 모델은 int8 + fp16으로 양자화(Quantization)되었으며, ONNX 런타임을 사용하여 CPU에서 효율적으로 실행된다. 이러한 설계는 온디바이스(On-device) 환경에서 고품질 음성 합성을 가능하게 하며, GPU 없이도 다양한 기기에서 작동하도록 설계되었다.

커뮤니티의 성능 및 사용성 평가

커뮤니티에서는 모델의 크기와 품질에 대해 긍정적인 평가가 주를 이룬다. 특히, OpenClaw 사용자는 Discord 봇을 통해 모델을 사용해 본 경험을 공유하며, Intel 9700 CPU에서 80M 모델이 1.5배 실시간 속도로 작동한다고 밝혔다. 하지만, 일부 사용자는 음성의 품질에 대한 아쉬움을 표현했으며, 표현력 제어(Expressive Control) 기능의 중요성을 강조하며, API를 통한 세밀한 제어 또는 표현 태그 지원을 요구했다.

기술적 구현 및 확장성 고려 사항

모델은 Python 기반으로 구현되었으며, ONNX 런타임을 사용한다. C++ ONNX 런타임을 활용하여 iOS와 같은 환경에서 성능을 개선할 수 있는지에 대한 질문이 제기되었다. 또한, 사용자 정의 음성(Custom Voice) 제작 가능성 및 상업적 사용을 위한 라이선스에 대한 문의가 있었다. 이는 TTS 기술의 상용화(Commercialization)와 관련된 중요한 고려 사항으로, 개발자는 이러한 요구에 대한 대응 방안을 모색해야 한다.

향후 개발 방향 및 로드맵

Kitten TTS는 향후 최적화된 추론 엔진(Inference Engine), 모바일 SDK, 고품질 TTS 모델, 다국어 지원 등을 계획하고 있다. 이러한 로드맵은 온디바이스(On-device) TTS 기술의 발전을 가속화하고, 다양한 사용 사례를 지원하기 위한 것이다. 특히, 모바일 SDK 출시는 iOS 환경에서의 활용성을 높이는 데 기여할 것으로 예상되며, 다국어 지원은 글로벌 시장 진출을 위한 중요한 요소이다.