AI 영상 편집, 이제 넷플릭스가 제어권을 가져온다
기존 AI 비디오 편집 모델의 의도치 않은 편집(Unintended Edits) 및 부자연스러운 물리 법칙(Unnatural Physics) 문제를 해결하기 위한 연구 진행
Vera 모델: 편집이 필요한 영역만 분리하여 레이어드 비디오 확산(Layered Video Diffusion) 방식으로 원본 영상의 무결성 보존
VOID 모델: 객체 제거 시 물리적으로 타당한 인페인팅(Physically Plausible Inpainting)을 통해 장면의 연속성 유지
두 모델 모두 창작자의 제어권(Creator Control)을 보장하며 복잡한 영상 편집 작업을 지원하는 것을 목표로 함
Vera의 레이어드 비디오 확산(Layered Video Diffusion) 아키텍처
Vera는 기존 비디오 편집 모델과 달리 전체 비디오를 재생성하는 대신 편집 레이어(Edit Layer)와 알파 매트(Alpha Matte)만 생성하는 접근 방식을 취한다.
Mixture-of-Transformers (MoT): 세 개의 분리된 DiT(Diffusion Transformer)를 사용하여 편집 레이어, 알파 매트, 합성 레이어(Composite Layer)를 각각 생성하며, 이를 통해 각 출력의 분포 차이를 효과적으로 관리함.
교차 레이어 상호작용(Cross-Layer Interaction): 각 DiT의 출력 토큰을 결합하여 공통의 자기 주의(Joint Self-Attention) 메커니즘을 통해 레이어 간 정보를 공유하고 통합함.
사전 훈련된 T2V 모델 활용: 세 개의 DiT 모두 동일한 사전 훈련된 T2V(Text-to-Video) 기반 모델에서 초기화되어 데이터 효율성(Data Efficiency)을 높임.
이러한 구조는 원본 영상의 변경되지 않아야 할 영역을 그대로 보존하면서 정밀한 편집 제어(Precise Edit Control)를 가능하게 한다.
VOID의 물리적 연속성 보장 메커니즘
VOID는 단순히 객체를 제거하는 것을 넘어, 제거된 객체로 인해 발생하는 물리적 상호작용(Physical Interaction)까지 고려하여 장면의 연속성을 보장한다.
VLM 기반 추론 파이프라인(VLM-based Reasoning Pipeline): 비디오-언어 모델(VLM)을 활용하여 제거될 객체와 인과적으로 영향을 받는 다른 영역(예: 떨어지는 물체, 충돌하는 객체)을 식별함.
쿼드마스크(Quadmask) 활용: 식별된 영향 영역을 쿼드마스크로 인코딩하여 확산 모델(Diffusion Model)의 입력으로 사용, 물리적으로 타당한 결과 생성 유도.
2단계 추론 파이프라인(Two-Pass Inference Pipeline): 1단계에서 물리적 연속성을 고려한 편집을 수행하고, 2단계에서는 객체 변형(Object Morphing)과 같은 아티팩트(Artifacts)를 안정화하기 위한 후처리 과정을 거침.
이러한 접근 방식은 기존 모델들이 간과했던 동적 장면(Dynamic Scenes)에서의 사실적인 결과물을 생성하는 데 기여한다.
Vera 및 VOID 학습 데이터셋 구축의 중요성
두 모델의 성능은 고품질 학습 데이터셋 구축에 크게 의존한다. Vera는 기존 데이터셋의 한계를 극복하기 위해 자체적인 레이어드 비디오 데이터셋을 구축했다.
Vera 데이터셋: 486k 프레임(832x480 해상도)으로 구성되며, 합성 컴포지트, 현실적인 단일 객체 비디오, 복잡한 다중 객체 비디오 등 점진적 복잡도 증가를 고려하여 설계됨.
VOID 데이터셋: Kubric 시뮬레이션 엔진과 HUMOTO 모션 캡처 데이터를 활용하여 물리 법칙에 기반한 반사실적(Counterfactual) 비디오 쌍과 쿼드마스크를 생성함. 이는 객체 제거 후 발생할 수 있는 모든 물리적 변화를 시뮬레이션함.
이러한 맞춤형 데이터셋 구축(Custom Dataset Construction)은 모델이 복잡한 편집 작업과 물리적 상호작용을 정확하게 학습하는 데 필수적이다.
기존 AI 비디오 편집의 한계점과 Vera/VOID의 차별점
기존 생성 비디오 편집 모델들은 종종 소스 푸티지(Source Footage)의 무결성을 보존하지 못하는 문제를 안고 있었다. 많은 방법론이 모든 픽셀을 재생성하여 의도하지 않은 영역까지 변경시키는 경향이 있었다.
Vera의 차별점: 편집이 필요한 영역만 분리하여 별도의 편집 레이어(Separate Edit Layer)로 생성함으로써, 원본 영상의 신원(Identity), 연기(Performance), 장면 디테일(Scene Details)을 완벽하게 보존한다.
VOID의 차별점: 객체 제거 시 단순히 빈 공간을 채우는 것을 넘어, 제거된 객체와의 물리적 상호작용(Physical Interaction)을 재현하여 장면의 논리적 흐름을 유지한다. 예를 들어, 물체가 떨어지거나 충돌하는 상황을 자연스럽게 처리한다.
이러한 콘텐츠 보존(Content Preservation) 및 물리적 타당성(Physical Plausibility) 강화는 전문적인 비디오 편집 워크플로우에서 AI 도구가 신뢰받기 위한 핵심 요소이다.
연구 결과 및 향후 과제
Vera와 VOID는 정량적 평가와 사용자 연구에서 기존 모델 대비 콘텐츠 보존, 지시 사항 준수, 물리적 사실성 측면에서 우수한 성능을 보였다. 특히, Vera는 창작자 선호도 조사에서 콘텐츠 보존 및 지시 사항 준수 측면에서 높은 평가를 받았다.
하지만 연구팀은 상용화 수준의 품질 달성을 위해 해결해야 할 몇 가지 한계점을 인지하고 있다.
Vera: 복잡한 효과(번개, 연기 등) 처리의 어려움, 배경 움직임과 카메라 이동 간의 일관성 유지 문제.
VOID: 특이한 카메라 각도나 피사체에 매우 근접한 촬영 영상 처리의 제약, 지원 비디오 길이 및 해상도 제한.
이러한 한계점은 향후 지속적인 연구 투자의 필요성을 시사하며, 커뮤니티와의 협력을 통해 기술 발전을 가속화할 것으로 기대된다.