넷플릭스, 멀티모달 AI 모델 MediaFM으로 콘텐츠 이해도 UP!

by DD
3개월 전
조회수 36

넷플릭스는 광범위한 콘텐츠 이해를 위해 오디오, 비디오, 자막을 융합하는 멀티모달 모델(Multimodal Model) MediaFM을 개발

MediaFM은 샷(Shot) 단위의 비디오, 오디오, 텍스트 임베딩(Embedding)을 결합하여 넷플릭스 콘텐츠에 대한 심층적인 이해(Deeper Understanding)를 제공

광고 관련성, 클립 인기 예측, 클립 태깅(Tagging) 등 다양한 애플리케이션에서 기존 모델 대비 성능 향상(Performance Improvement)을 확인

모델의 핵심은 샷 레벨 임베딩의 문맥적 이해(Contextual Understanding)를 위한 트랜스포머(Transformer) 기반 인코더(Encoder)이며, 마스크드 샷 모델링(Masked Shot Modeling)을 활용하여 학습

향후 Qwen3-Omni와 같은 사전 학습된 멀티모달 LLM(Multimodal LLM)을 활용하여 모델 성능을 더욱 향상시킬 계획

MediaFM의 멀티모달 아키텍처

MediaFM은 넷플릭스 콘텐츠를 이해하기 위해 오디오, 비디오, 텍스트(Audio, Video, Text)의 세 가지 모달리티(Modality)를 융합하는 트랜스포머 기반(Transformer-based) 인코더(Encoder)를 사용한다.

비디오: SeqCLIP(SeqCLIP) 모델을 활용하여 샷(Shot) 단위의 프레임 임베딩 생성

오디오: Meta FAIR의 wav2vec2(wav2vec2) 모델을 사용하여 오디오 샘플 임베딩

텍스트: OpenAI의 text-embedding-3-large(text-embedding-3-large) 모델로 자막 텍스트 임베딩

각 모달리티의 임베딩을 연결(Concatenate)한 후, 2304차원 벡터(2304-dimensional vector)로 변환하여 트랜스포머 인코더에 입력한다. 이 아키텍처는 넷플릭스 콘텐츠의 다양한 측면을 포괄적으로 이해(Comprehensive Understanding)하는 데 기여한다.

Masked Shot Modeling(MSM) 학습 방식

MediaFM은 자기 지도 학습(Self-supervised Learning) 방식인 마스크드 샷 모델링(MSM)을 사용하여 훈련된다. MSM은 입력 시퀀스(Sequence)의 20% 샷 임베딩을 마스크(Mask)하고, 모델이 해당 부분을 예측하도록 학습한다.

입력: 샷 임베딩 시퀀스 + [CLS] 토큰 + [GLOBAL] 토큰

학습 목표: 마스크된 샷 임베딩의 원래 값 예측(Original Value Prediction)

최적화: Muon(Muon)과 AdamW(AdamW) 옵티마이저(Optimizer)를 사용하여 모델 파라미터 최적화

이러한 학습 방식은 모델이 샷 간의 문맥적 관계(Contextual Relationship)를 학습하고, 콘텐츠의 세부적인 뉘앙스(Nuance)를 파악하는 데 도움을 준다.

MediaFM의 성능 평가 및 결과

MediaFM은 광고 관련성, 클립 인기 예측, 클립 톤(Tone) 분류 등 다양한 태스크(Task)에서 기존 모델 대비 향상된 성능(Improved Performance)을 보였다.

평가 방식: 학습된 임베딩 위에 태스크별 선형 레이어(Task-specific Linear Layer)를 추가하여 성능 측정

비교 대상: SeqCLIP, Google VertexAI 멀티모달 임베딩, TwelveLabs Marengo 2.7

주요 결과: 광고 관련성(Ad Relevancy) 및 클립 인기 예측(Clip Popularity Prediction) 태스크에서 특히 높은 성능

이러한 결과는 MediaFM이 넷플릭스 콘텐츠에 대한 더 깊이 있는 이해(Deeper Understanding)를 제공하고, 다양한 애플리케이션에 기여할 수 있음을 시사한다.

MediaFM의 주요 개선점: 멀티모달 융합과 문맥적 이해

MediaFM의 주요 개선점은 멀티모달 정보 융합(Multimodal Fusion)과 샷 레벨 임베딩의 문맥적 이해(Contextual Understanding)이다.

멀티모달 융합: 오디오, 비디오, 텍스트 정보를 결합하여 콘텐츠의 다양한 측면을 포괄적으로 이해

문맥적 이해: 트랜스포머 인코더를 사용하여 샷 간의 관계를 학습하고, 샷 레벨 임베딩의 정확도 향상

실험 결과: 멀티모달 정보를 융합하고 문맥적 정보를 활용했을 때, 클립 인기 예측(Clip Popularity Ranking) 성능이 크게 향상

이러한 개선점은 넷플릭스가 콘텐츠 추천, 광고, 내부 분석 등 다양한 분야에서 더욱 정교한 서비스(Sophisticated Service)를 제공하는 데 기여할 것이다.

향후 계획: 사전 학습된 LLM 활용

넷플릭스는 MediaFM의 성능을 더욱 향상시키기 위해 사전 학습된 멀티모달 LLM(Pretrained Multimodal LLM)을 활용할 계획이다.

목표: Qwen3-Omni와 같은 모델을 활용하여 모달리티 융합(Modality Fusion) 및 문맥 이해 능력 강화

기대 효과: 기존 모델 대비 더욱 강력한 성능(Stronger Performance)과 다양한 태스크(Task)에서의 유연성 확보(Flexibility)

추가 연구: 제목 레벨 메타데이터(Metadata) 임베딩 및 적응(Adaptation) 연구 진행

이러한 노력은 넷플릭스가 콘텐츠 이해 분야에서 기술적 리더십(Technological Leadership)을 유지하고, 사용자에게 더욱 풍부한 경험(Richer Experience)을 제공하는 데 기여할 것이다.

MediaFM: The Multimodal AI Foundation for Media Understanding at Netflix