Kanana-o, 사람처럼 말하는 AI로 진화!

카카오의 멀티모달 언어 모델 Kanana-o가 멀티모달 지시 이행 능력을 개선함

DPO 기반 학습을 통해 발화 표현력을 향상시키고, 팟캐스트 형태의 다화자 멀티턴 대화 지원

온디바이스 모델 경량화 및 안전성 강화를 통해 실용적인 음성 비서 기술 확보

멀티모달 지시 이행 능력 향상

Kanana-o는 멀티모달 지시 이행 능력을 향상시키기 위해 다양한 모달리티 조합의 데이터셋을 구축했다. 구체적으로, 이미지-오디오-텍스트 통합 데이터셋을 설계하여 모델이 다양한 입력 형태에 강건하게 대응하도록 학습했다. 따라서 사용자의 의도를 정확하게 파악하고, 고품질의 응답을 생성하는 능력을 높였다.

발화 표현력 개선을 위한 DPO 활용

Kanana-o는 DPO(Direct Preference Optimization) 기반 학습 프레임워크를 활용하여 발화 표현력을 강화했다. 자체 모델의 표현력 강화를 위해 자체 생성 결과물 내에서 우열을 가리는 방식을 사용했다. 고품질 배우 음성을 활용하여 표현력의 임계치를 돌파하고, 화자 유사도를 개선했다.

온디바이스 모델 경량화 및 안전성 강화

Kanana-o는 온디바이스 환경을 위해 모델 경량화를 진행하고 있다. 양자화, 프루닝, 지식 증류 등의 기술을 활용하여 실시간 음성 상호작용이 가능한 모델을 구현하는 것이 목표이다. RLHF를 포함한 인간 선호도 정렬 기법을 적용하여 안전성을 강화하고, 사용자에게 신뢰할 수 있는 음성 비서 모델을 만들고 있다.