2명의 형제가 만든 텍스트-비디오 모델, 오픈소스로 공개!

2명의 개발자가 2년간 자체 개발한 20억 파라미터(2B params) 텍스트-비디오 모델 공개

360p 또는 720p 해상도로 2~5초 분량의 영상 생성 가능하며, 아파치 2.0 라이선스(Apache 2.0 License)로 배포

T5 텍스트 인코딩(Text Encoding), Wan 2.1 VAE 사용, DiT 기반 백본(Backbone) 아키텍처 채택

SOTA(State-of-the-Art) 모델 대비 부족하지만, 자체 개발의 중요성을 강조하며 지속적인 성능 개선 계획 발표

모델 아키텍처 및 기술 스택 분석

개발자들은 텍스트 인코딩(Text Encoding)을 위해 T5 모델을, 이미지 압축(Image Compression)에는 Wan 2.1 VAE를 사용했다. 또한, DiT(Diffusion Transformer) 변형 아키텍처를 기반으로 모델을 구축했다. 특히, 자체적인 시간적 VAE(Temporal VAE)를 개발했으나, Wan의 VAE가 더 작은 크기에서 동등한 성능을 보여 이를 채택했다. 이는 임베딩 비용(Embedding Cost)을 절감하기 위한 전략으로 분석된다.

성능 및 생성 결과 평가

해당 모델은 만화/애니메이션 스타일, 음식, 자연 장면, 단순한 캐릭터 움직임에 강점을 보인다. 반면, 복잡한 물리 현상, 빠른 움직임, 일관된 텍스트 생성에는 어려움을 겪는 것으로 나타났다. 이는 현재 텍스트-비디오 모델(Text-to-Video Model)의 일반적인 한계이며, 개발자들은 향후 물리 기반 변형(Physics-based Deformations), 속도 향상을 위한 증류(Distillation), 오디오 기능 추가 등을 계획하고 있다.

오픈소스(Open Source) 전략 및 커뮤니티 반응

모델은 아파치 2.0 라이선스(Apache 2.0 License)로 공개되어, 상업적 이용을 포함한 자유로운 사용이 가능하다. 커뮤니티에서는 모델의 성능과 개발 노력에 대한 긍정적인 평가와 함께, Hugging Face 링크(Hugging Face Link) 오류에 대한 지적이 있었다. 이는 오픈소스 모델의 접근성을 저해하는 문제로, 빠른 해결이 필요하다. 또한, r/StableDiffusion 커뮤니티에 홍보하라는 제안도 있었다.

자체 개발의 중요성 및 미래 전망

개발자들은 Veo/Sora와 같은 경쟁 모델의 존재에도 불구하고, 자체 모델 개발의 중요성을 강조한다. 이는 특정 기능(캐릭터 일관성, 카메라 제어, 편집 등)을 구현하기 위해서는 모델 자체를 수정해야 하기 때문이다. 자체 개발을 통해 모델의 개발 프로세스(Development Process)를 소유하고, 원하는 기능을 구현할 수 있다는 점을 강조한다. 이는 장기적인 관점에서 AI 모델 개발(AI Model Development)의 핵심 경쟁력이 될 수 있다.