TwelveLabs Marengo, Amazon Bedrock에서 멀티모달 비디오 검색 시대를 열다!

by DD
4개월 전
조회수 24

TwelveLabs Marengo는 멀티모달 임베딩 모델로, Amazon Bedrock에서 실시간 텍스트·이미지 처리를 지원하며 비디오 이해 능력 향상

다중 벡터 아키텍처(Multi-vector Architecture)를 통해 시각, 오디오, 텍스트 정보를 개별 임베딩으로 생성하여 정보 손실 최소화

Amazon OpenSearch Serverless를 벡터 데이터베이스로 활용, 단순 메타데이터 매칭을 넘어선 지능형 콘텐츠 발견 구현

비디오 임베딩 API를 통해 비디오를 280개 이상의 세그먼트로 분할, 정밀한 시간 기반 검색 가능

텍스트, 이미지, 오디오를 활용한 교차 모달 의미 검색(Cross-modal Semantic Search)을 통해 다양한 비디오 검색 경험 제공

멀티모달 임베딩(Multimodal Embedding)의 핵심

TwelveLabs Marengo는 비디오의 시각, 오디오, 텍스트 정보를 개별 임베딩(Embedding)으로 생성하는 다중 벡터 아키텍처를 사용한다. 기존의 단일 벡터 방식은 모든 정보를 하나의 표현으로 압축하여 중요한 의미 손실(Information Loss)을 발생시켰다. Marengo는 각 모달리티(Modality)의 특성을 반영한 임베딩을 별도로 생성하여 비디오 데이터의 풍부함(Richness)을 유지한다. 이를 통해 시각 전용, 오디오 전용, 또는 결합된 쿼리로 특정 콘텐츠 측면을 유연하게 검색할 수 있다. 이러한 접근 방식은 멀티모달 데이터(Multimodal Data) 분석의 정확도(Accuracy)를 향상시킨다.

Amazon Bedrock과 Marengo의 통합

Amazon Bedrock은 TwelveLabs Marengo Embed 3.0 모델을 제공하여 실시간 텍스트·이미지 처리(Real-time Text & Image Processing)를 지원한다. 개발자는 Bedrock API를 통해 Marengo 모델을 호출하여 비디오 임베딩을 생성할 수 있다. 비동기 API(Asynchronous API)를 사용하여 비디오를 처리하며, S3 버킷(S3 Bucket)에 저장된 비디오를 입력으로 받는다. API 호출 시 모델 ID, 입력 타입, S3 위치 등의 파라미터를 설정해야 한다. 이 API는 단일 비디오에서 280개 이상의 개별 임베딩(Individual Embeddings)을 생성하여, 정밀한 시간 기반 검색과 분석을 가능하게 한다. Bedrock API의 유연성(Flexibility)은 다양한 비디오 분석 애플리케이션 개발을 용이하게 한다.

OpenSearch Serverless를 활용한 벡터 검색

Marengo 모델로 생성된 임베딩은 Amazon OpenSearch Serverless를 사용하여 저장 및 검색된다. OpenSearch Serverless는 서버리스(Serverless) 아키텍처를 통해 인프라 관리 부담 없이 시맨틱 검색(Semantic Search)을 구현할 수 있도록 지원한다. OpenSearch Serverless 컬렉션을 생성하고, 벡터 필드를 포함하는 인덱스를 정의하여 임베딩을 저장한다. KNN(K-Nearest Neighbors) 알고리즘을 사용하여 유사한 임베딩을 빠르게 검색할 수 있다. 텍스트, 이미지, 오디오 등 다양한 입력 타입에 대한 교차 모달 검색(Cross-modal Search)을 지원하며, 이를 통해 비디오 콘텐츠의 다차원적인 특성을 효과적으로 활용할 수 있다. OpenSearch Serverless의 확장성(Scalability)은 대규모 비디오 데이터셋 처리에도 적합하다.

비디오 임베딩 API의 상세 기능

Marengo 비디오 임베딩 API는 다양한 설정 옵션을 제공하여, 개발자가 원하는 방식으로 임베딩을 생성할 수 있도록 돕는다. API 호출 시, 입력 비디오의 S3 위치(S3 Location), 시작 및 종료 시간, 세그먼트 분할 방법, 임베딩 타입, 임베딩 범위 등을 설정할 수 있다. 세그먼트 분할(Segmenting) 방법은 동적(Dynamic) 또는 고정(Fixed) 방식을 선택할 수 있으며, 각 세그먼트의 길이를 지정할 수 있다. 임베딩 타입은 시각, 오디오, 텍스트 중 선택 가능하며, 임베딩 범위는 클립(Clip) 또는 에셋(Asset) 단위로 지정할 수 있다. 이러한 유연한 설정 옵션은 다양한 비디오 분석 요구사항(Video Analysis Requirements)을 충족시킨다.

교차 모달 검색(Cross-modal Search)의 실제 활용

Marengo의 가장 큰 장점 중 하나는 텍스트, 이미지, 오디오 등 다양한 모달리티 간의 교차 모달 검색(Cross-modal Search)을 지원한다는 점이다. 텍스트 쿼리를 사용하여 비디오를 검색할 수 있으며, 텍스트 임베딩을 생성하여 OpenSearch 인덱스에서 유사한 비디오 클립을 찾는다. 이미지 검색의 경우, 이미지 임베딩을 생성하여 유사한 비디오 클립을 검색한다. 오디오 검색은 특정 화자, 대화 내용, 음성 주제를 기반으로 비디오를 찾을 수 있게 해준다. 이러한 기능은 자연어 콘텐츠 발견(Natural Language Content Discovery), 효율적인 미디어 자산 관리(Media Asset Management), 그리고 조직이 대규모 비디오 콘텐츠를 더 잘 이해하고 활용할 수 있는 다양한 애플리케이션으로 이어진다. 멀티모달 검색(Multimodal Search)의 가능성을 보여준다.

TwelveLabs Marengo를 활용한 Amazon Bedrock에서의 영상 이해 기술 구현