TwelveLabs Marengo 3.0, 멀티모달 검색의 새로운 지평을 열다!

TwelveLabs Marengo 3.0은 비디오, 오디오, 텍스트를 통합 벡터 공간으로 변환하여 멀티모달 검색(Multimodal Search)을 가능하게 함

Fused Embeddings, Multi-Vector Retrieval(Score-based, RRF), Intent-based Dynamic Routing 등 3가지 비디오 임베딩 및 검색 전략 제시

Fused 방식은 관리 용이하나 가중치 변경 불가, Multi-Vector는 유연성 확보, Dynamic Routing은 쿼리 의도 자동 반영

RRF(Reciprocal Rank Fusion)는 점수 스케일 불균형 문제를 해결하여 정확한 검색 결과(Accurate Search Results)를 제공

쿼리 의도에 따라 가중치를 조절하는 Intent-based Dynamic Routing은 앵커 텍스트 품질에 의존적이며, 튜닝 필요

멀티모달 검색의 핵심: 통합 벡터 공간

TwelveLabs Marengo 3.0은 비디오, 오디오, 텍스트를 하나의 통합 벡터 공간(Shared Latent Space)으로 변환하여 멀티모달 검색을 구현한다. 이는 기존 시스템의 한계를 극복하고, 텍스트-비디오, 이미지-비디오 등 다양한 검색 쿼리(Search Query)를 지원한다.

기존 방식: 각 모달리티별로 별도의 인덱스를 구축하고, 검색 결과를 병합하는 복잡성

TwelveLabs: 모든 정보를 단일 벡터로 표현하여 검색 효율성을 극대화

이러한 접근 방식은 멀티모달 검색 경험(Multimodal Search Experience)의 핵심이며, 다양한 형태의 비디오 콘텐츠를 효과적으로 분석하고 검색할 수 있게 한다.

Fused Embeddings: 단순함과 비용 효율성

Fused Embeddings 방식은 세 가지 모달리티 임베딩을 저장 시점에 하나의 벡터로 합쳐 관리하는 방법이다. Visual, Audio, Transcription 임베딩에 가중치를 부여하여 합산하고, 하나의 인덱스로 통합한다.

장점: 단일 인덱스(Single Index)로 관리 용이, 비용 절감

단점: 가중치 변경 불가(Irreversible), 쿼리 의도와 무관한 고정 가중치 적용, 디버깅 어려움

활용: 영상 포맷이 일관되고, 가중치 설정이 용이한 경우 비용 효율적인 비디오 임베딩 및 검색(Cost-Effective Video Embedding and Search)을 구현할 수 있다.

Multi-Vector Retrieval: 유연성과 디버깅

Multi-Vector Retrieval은 세 가지 모달리티 임베딩 결과를 별도의 인덱스에 저장하고, 검색 시점에 각 결과를 합산하는 방식이다. Fused 방식의 단점을 보완하여 가역성, 디버깅, 유연성을 제공한다.

Score-based Fusion: 각 모달리티 검색 결과의 코사인 유사도 점수에 가중치를 곱해 합산

RRF(Reciprocal Rank Fusion): 점수 대신 순위를 사용, 모달리티 간 점수 스케일 차이에 영향받지 않음

RRF의 장점: 모든 모달리티를 동등하게 취급(Equal Treatment)하여 특정 모달리티에 편향되지 않은 검색 결과 제공

이러한 유연성은 최적의 가중치 조합(Optimal Weight Combination)을 찾기 위한 A/B 테스트를 가능하게 한다.

Intent-based Dynamic Routing: 쿼리 의도 자동 반영

Intent-based Dynamic Routing은 쿼리 텍스트 자체에서 의도를 파악하여 모달리티 가중치를 자동으로 조절하는 방법이다. 쿼리 의도(Query Intent)에 따라 동적으로 가중치를 부여하여, 다양한 쿼리에 대한 정확한 검색 결과를 제공한다.

Routing Anchor: 각 모달리티를 잘 설명하는 대표 텍스트(앵커)를 미리 정의

Softmax with Temperature: 쿼리와 각 앵커 간의 코사인 유사도를 계산하고, softmax with temperature를 적용하여 가중치 산출

장점: 쿼리별 가중치 적용 이력 모니터링(Query-Specific Weight Monitoring), 성능 개선 용이

단점: 앵커 텍스트 품질 의존, 인덱스 3개 필요, α 튜닝 필요

이 방식은 자연어 질의(Natural Language Query)를 처리하는 고도화된 방법으로, 사용자 경험을 향상시킨다.

비디오 검색 전략 비교 및 선택 가이드

TwelveLabs Marengo 3.0은 다양한 비디오 검색 전략을 제공하며, 각 전략은 특정 사용 사례(Use Case)에 적합하다.

Fused Embeddings: 빠른 프로토타이핑(Rapid Prototyping)에 적합

Multi-Vector Retrieval: 최적화(Optimization)를 위한 튜닝 필요

Intent-based Dynamic Routing: 자연어 질의 처리, 고도화된 방법

고려 사항: 시스템 요구 사항, 업무 성숙도, 영상 구조의 일관성

결론적으로, 각 방법의 트레이드오프(Trade-off)를 이해하고, 시스템의 요구 사항에 맞는 전략을 선택하는 것이 중요하다. Marengo 3.0의 구조적 분리를 활용하여 정밀한 비디오 검색 경험(Precise Video Search Experience)을 구축할 수 있다.