카카오, 생각하는 멀티모달 AI 'Kanana-v-4b-hybrid' 공개!
by DD
5개월 전
조회수 36
Kanana-v-4b-hybrid는 텍스트, 이미지, 음성을 이해하는 멀티모달 언어모델임
한국어 추론 능력 강화를 위해 한국어 특유의 뉘앙스를 반영하여 개발됨
KoNET 평가에서 92.8점을 기록하며, 한국형 AI의 가능성을 입증함
Kanana-v-4b-hybrid의 핵심 아키텍처
Kanana-v-4b-hybrid는 Vision Encoder, C-Abstractor, LLM으로 구성되어 시각적 추론 능력을 극대화한다. 구체적으로, Long CoT SFT를 통해 복잡한 문제 해결 능력을 향상시켰다. 따라서, 온라인 강화학습을 통해 모델의 추론 성능을 지속적으로 개선하고 있다.
한국어 추론 능력 강화를 위한 노력
Kanana-v-4b-hybrid는 한국어 질의에 대해 언어 변환 없이 한국어로 추론한다. 한국어 조건을 정확히 이해하고, 논리적 흐름을 유지하는 것이 핵심이다. 반면, 영어로의 번역 과정에서 논리적 모순이 발생할 수 있음을 인지하고, 한국어 추론을 강화했다.
단일 모델로 추론과 비추론 모두 처리
Kanana-v-4b-hybrid는 단일 모델로 추론형 및 비추론형 응답을 모두 생성한다. 구체적으로, Chat Template을 활용하여 '생각'과 '답변'을 분리한다. 따라서, 시스템 복잡도를 줄이고, 일관된 사용자 경험을 제공한다.