카카오, 멀티모달 AI 모델 Kanana-v-3b 공개!

카카오가 경량 멀티모달 언어 모델 Kanana-v-3b를 개발하고 오픈소스로 공개함

지식 증류(Knowledge Distillation) 및 DPO를 활용하여 모델 성능을 향상시킴

한국어 데이터셋 구축을 통해 지시 이행 능력과 한국 문화 이해를 강화함

Kanana-v-3b 아키텍처 심층 분석

Kanana-v-3b는 ViT 기반 Vision Encoder와 자체 개발한 C-Abstractor를 활용하여 이미지를 처리한다. 구체적으로, Vision Encoder는 이미지 정보를 LLM이 이해할 수 있는 형태로 변환한다. 따라서, LLM은 텍스트 지시와 함께 이미지 정보를 입력받아 텍스트 형태의 답변을 생성한다.

지식 증류(KD)와 DPO의 효과

Kanana-v-3b는 지식 증류(Knowledge Distillation)를 통해 경량 모델의 성능을 향상시켰다. 교사 모델의 지식을 학생 모델에 전이하여, 벤치마크 성능 향상을 달성했다. 반면, DPO(Direct Preference Optimization)를 통해 인간 선호도를 학습하여 사용자 만족도를 높였다.