카카오, 한국어 이미지 검색을 위한 멀티모달 AI 모델 공개!

카카오가 한국어와 이미지를 동시에 이해하는 멀티모달 임베딩 모델 'Kanana-v-embedding'을 개발

VLM2Vec 기반으로, 텍스트-이미지, 이미지-이미지 등 다양한 조합의 검색을 지원

그래디언트 캐싱, MRL 등 학습 기법을 통해 한국어 성능 향상 및 서비스 비용 절감

Kanana-v-embedding 아키텍처 심층 분석

Kanana-v-embedding은 VLM(Vision-Language Model)을 기반으로, 텍스트와 이미지를 하나의 임베딩 공간에 매핑한다. 구체적으로 트랜스포머 레이어를 통해 텍스트와 이미지의 특징을 추출하고, 마지막 히든 스테이트를 임베딩으로 사용한다. 따라서 다양한 모달리티 조합을 지원하며, 지시(Instruction) 기반 쿼리 임베딩을 통해 검색 성능을 향상시킨다.

학습 과정: 그래디언트 캐싱, MRL, 하드 네거티브 마이닝

모델 학습은 대조 학습(Contrastive Learning) 방식으로 진행되며, 그래디언트 캐싱을 통해 대형 배치 학습 효과를 얻는다. Matryoshka Representation Learning(MRL) 기법을 활용하여 임베딩 차원 유연성을 확보하고, 하드 네거티브 마이닝으로 학습 효율을 높인다. 따라서 모델 성능 향상과 자원 효율성을 동시에 달성한다.

실제 서비스 적용: 검색, 추천, RAG

Kanana-v-embedding은 이미지 검색, 유사 이미지 추천, 멀티모달 RAG 등 다양한 서비스에 활용된다. 구체적으로 한국어 쿼리를 이해하고, 이미지 캡션을 기반으로 정확한 검색 결과를 제공한다. 따라서 광고 심사 플랫폼과 같은 실제 서비스에 적용되어 사용자 경험 개선에 기여한다.