카카오, 멀티모달 AI 모델 Kanana-v-3b 공개!

by DD
10개월 전
조회수 8

카카오가 경량 멀티모달 언어 모델 Kanana-v-3b를 개발하고 오픈소스로 공개함

지식 증류(Knowledge Distillation)DPO를 활용하여 모델 성능을 향상시킴

한국어 데이터셋 구축을 통해 지시 이행 능력한국 문화 이해를 강화함

Kanana-v-3b 아키텍처 심층 분석

Kanana-v-3b는 ViT 기반 Vision Encoder와 자체 개발한 C-Abstractor를 활용하여 이미지를 처리한다. 구체적으로, Vision Encoder는 이미지 정보를 LLM이 이해할 수 있는 형태로 변환한다. 따라서, LLM은 텍스트 지시와 함께 이미지 정보를 입력받아 텍스트 형태의 답변을 생성한다.

지식 증류(KD)와 DPO의 효과

Kanana-v-3b는 지식 증류(Knowledge Distillation)를 통해 경량 모델의 성능을 향상시켰다. 교사 모델의 지식을 학생 모델에 전이하여, 벤치마크 성능 향상을 달성했다. 반면, DPO(Direct Preference Optimization)를 통해 인간 선호도를 학습하여 사용자 만족도를 높였다.

한국어 데이터셋 구축 전략

한국어 데이터의 부족 문제를 해결하기 위해, KoMIF 데이터셋을 구축하여 지시 이행 능력을 강화했다. 구체적으로, 다양한 질문 유형을 포함하여 모델이 지시 정보에 더 집중하도록 유도했다. 따라서, 모델은 한국 문화에 대한 이해를 높이고, 실제 사용성을 개선했다.

카카오의 경량 멀티모달 언어모델 ‘Kanana-1.5-v-3b’ 개발부터 공개까지