텍스트, 이미지, 영상, 음성까지! Gemini Embedding 2, 멀티모달 임베딩 시대 연다

by DD
2개월 전
조회수 82

구글(Google)이 텍스트, 이미지, 비디오, 오디오, 문서를 단일 임베딩 공간에 매핑하는 Gemini Embedding 2를 출시함

Gemini 아키텍처(Gemini Architecture) 기반으로, 최대 8192 토큰의 텍스트, 이미지, 비디오, 오디오, PDF 지원

기존 모델 대비 텍스트, 이미지, 비디오 태스크에서 성능 향상(Performance Improvement)을 보이며, 다양한 다운스트림 태스크 지원

Gemini Embedding 2의 멀티모달 이해

Gemini Embedding 2는 텍스트, 이미지, 비디오, 오디오, 문서를 단일 임베딩 공간(Single Embedding Space)에 매핑하여 멀티모달 검색 및 분류를 가능하게 한다. 특히, 텍스트는 최대 8192 토큰, 이미지는 최대 6개, 비디오는 최대 120초, 오디오는 텍스트 변환 없이, 문서는 최대 6페이지 PDF를 지원한다. 이 모델은 인터리브드 입력(Interleaved Input)을 이해하여 여러 모달리티(Modality)를 단일 요청으로 처리, 복잡한 데이터 간의 관계를 파악한다. 이는 RAG(Retrieval-Augmented Generation) 및 의미론적 검색(Semantic Search) 등 다양한 다운스트림 태스크(Downstream Tasks)의 정확도를 향상시킨다.

Matryoshka Representation Learning(MRL) 기술

Gemini Embedding 2는 Matryoshka Representation Learning(MRL) 기술을 활용하여 유연한 출력 차원(Flexible Output Dimensions)을 제공한다. MRL은 정보를 '중첩'시켜 차원을 동적으로 축소하는 기술로, 개발자는 성능과 저장 비용 간의 균형을 맞출 수 있다. 기본 3072 차원 외에도 1536, 768 차원을 지원하며, 고품질 임베딩을 위해 3072, 1536, 768 차원 사용을 권장한다. 이는 모델의 유연성(Model Flexibility)을 높여 다양한 사용 사례에 적용 가능하게 한다.

Gemini Embedding 2 생태계 확장

Gemini Embedding 2는 Gemini API 및 Vertex AI를 통해 접근 가능하며, LangChain, LlamaIndex, Haystack, Weaviate, QDrant, ChromaDB, Vector Search 등 다양한 도구와 통합된다. 이는 개발자가 자신에게 맞는 환경(Development Environment)에서 모델을 활용할 수 있도록 지원한다. 구글은 이 모델을 통해 RAG, 대규모 데이터 관리, 검색/분석 등 다양한 분야에서 멀티모달 AI 경험(Multimodal AI Experiences)을 제공하고자 한다.

Gemini Embedding 2: Our first natively multimodal embedding model