Gemini Embedding 2로 영상 검색, 텍스트 없이 찰나의 순간을!
구글 Gemini Embedding 2를 활용하여 영상 임베딩(Video Embedding)을 수행, 텍스트 변환 없이 영상 검색 가능
ChromaDB를 활용한 벡터 데이터베이스 구축, 자연어 쿼리로 영상 클립 검색 및 자동 트리밍 기능 제공
SentrySearch CLI를 통해 대시캠 영상, 보안 영상 등 다양한 영상 데이터에 적용 가능
API 비용 절감(Cost Reduction)을 위한 정지 화면 감지 및 전처리 기능 제공, 1시간당 약 2.5달러 비용 발생
Gemini Embedding 2를 활용한 영상 임베딩 기술
본 시스템은 구글 Gemini Embedding 2를 사용하여 원시 영상(Raw Video)을 768차원 벡터 공간에 직접 투영한다. 이는 기존의 영상 전사(Transcription), 프레임 캡셔닝(Frame Captioning)과 같은 중간 단계를 거치지 않아, 텍스트 쿼리와 영상 클립 간의 직접적인 비교를 가능하게 한다. 특히, 텍스트 기반 검색보다 정확하고 빠른 검색(Fast Search)을 지원한다.
SentrySearch CLI 아키텍처 및 구현
SentrySearch CLI는 대시캠 영상의 분할(Chunking), 임베딩, 검색, 트리밍 기능을 제공한다. 영상은 겹치는 청크(Overlapping Chunks)로 분할되며, 각 청크는 Gemini Embedding 모델을 통해 벡터화되어 ChromaDB에 저장된다. 검색 시, 텍스트 쿼리는 동일한 벡터 공간에 임베딩되어 저장된 영상 임베딩과 매칭된다. FFmpeg를 사용하여 영상 분할 및 트리밍을 수행하며, API 키 설정 및 인덱싱, 검색 기능을 제공한다.
비용 최적화 및 성능 개선 전략
본 시스템은 API 호출 비용 절감(Cost Reduction)을 위해 두 가지 최적화 기법을 사용한다. 첫째, 전처리(Preprocessing)를 통해 영상 해상도와 프레임 속도를 낮춰 업로드 크기를 줄인다. 둘째, 정지 화면 감지 기능을 통해 의미 없는 청크를 건너뛰어 API 호출 횟수를 줄인다. 이러한 최적화는 특히 Sentry Mode와 같이 유휴 시간이 많은 영상에서 비용 절감 효과를 극대화한다.
커뮤니티 반응 및 활용 사례
커뮤니티에서는 Gemini Embedding 2의 영상 임베딩 기능(Video Embedding)에 대한 높은 관심을 보였다. 특히, 대시캠 영상뿐만 아니라 홈 모니터링, 다양한 영상 데이터에 적용할 수 있다는 점에 주목했다. 또한, 오픈 소스 모델(Open Source Model)에 대한 기대와 함께, Gemini의 응답 신뢰도가 낮을 경우의 대응 전략(Fallback Strategy)에 대한 질문도 제기되었다.