5년 된 맥북으로 1년 치 비디오 인덱싱, 로컬 LLM의 힘!

저자는 Gemma 4 31B 모델을 사용하여 5년 된 맥북에서 1년 치 비디오를 로컬에서 인덱싱(Indexing)하는 데 성공함

DaVinci Resolve의 스마트 검색 기능과 Claude Code를 활용하여 비디오 편집 워크플로우를 구축하고, AI 기반 편집 도구의 문제점을 지적함

로컬 LLM을 활용한 인덱싱 시스템 구축을 통해 개인 정보 보호(Privacy)와 비용 절감(Cost Reduction)을 동시에 달성함

커뮤니티에서는 오래된 하드웨어(Old Hardware)에서도 LLM을 활용할 수 있다는 점에 주목하며, 개인 아카이브 관리(Personal Archive Management)에 대한 높은 관심을 보임

로컬 LLM 기반 인덱싱 시스템 아키텍처

저자는 로컬 우선(Local-First) 원칙을 기반으로 비디오 인덱싱 시스템을 설계했다. 시스템은 ffprobe를 통한 메타데이터 추출, exiftool을 이용한 GPS 정보 획득, WhisperX를 활용한 음성 텍스트 변환, insightface를 통한 얼굴 인식 및 임베딩 생성을 포함한다. 특히, 각 비디오 클립에 대한 정보를 담은 `.description.md` 파일을 생성하여 데이터 격리 아키텍처(Data Isolation Architecture)를 구현했다. 이는 시스템 장애 시에도 데이터 손실을 최소화하고, 데이터 이동의 유연성을 확보하는 데 기여한다.

Gemma 4 31B 모델의 성능 및 하드웨어 활용

저자는 2021년형 맥북 프로 M1 Max (64GB RAM, 50GB 스왑)에서 Gemma 4 31B 모델을 구동하여 1년 치 비디오를 인덱싱했다. 50GB의 스왑 메모리(Swap Memory) 사용에도 불구하고, 시스템은 비교적 안정적으로 작동했으며, 이는 애플 실리콘(Apple Silicon)의 메모리 대역폭(Memory Bandwidth) 덕분이라고 분석했다. 커뮤니티에서는 오래된 하드웨어에서도 LLM을 활용할 수 있다는 점에 주목하며, 하드웨어 자원 활용(Hardware Resource Utilization)에 대한 관심을 보였다.

AI 기반 비디오 편집 도구의 한계와 해결책

저자는 기존 AI 기반 비디오 편집 도구들이 미리 라벨링된 데이터(Labeled Data)를 전제로 한다는 점을 지적하며, AI 환각(Hallucination) 문제를 언급했다. 해결책으로, 비디오 클립을 영어 기반으로 검색 가능하게 만드는 인덱싱 시스템을 제안했다. 즉, AI 편집 도구는 인덱싱된 데이터를 기반으로 작동하도록 설계되어야 한다고 강조했다. 이는 AI 기반 편집 도구의 정확성(Accuracy)을 높이고, 사용자 경험(User Experience)을 개선하는 데 기여할 수 있다.

구조화된 스키마(Schema)를 통한 모델 신뢰도 향상

저자는 구조화된 스키마(Structured Schema)를 사용하여 Gemma 4 31B 모델의 정확도를 높였다. 예를 들어, `조명(Lighting)` 정보를 얻기 위해 `golden_hour`, `bright_daylight` 등 Enum 제약 조건(Enum Constraints)을 사용했다. 이를 통해 모델이 임의의 값을 생성하는 것을 방지하고, 결과값의 신뢰도(Reliability)를 높였다. 커뮤니티에서는 모델의 예측 가능성(Predictability)을 높이는 방법에 대한 논의가 이루어졌다.