단 4단계 추론으로 20배 빠른 비디오 생성

by DD
5개월 전
조회수 28

LightX2V는 텍스트, 이미지를 비디오로 변환하는 AI 생성 프레임워크임.

4단계 증류 기술을 통해 기존 대비 20배 빠른 추론 속도를 제공함.

Hugging Face를 통해 다양한 모델, 양자화, 배포 옵션 제공하며, Gradio, ComfyUI 지원.

4단계 증류 기술과 최적화된 아키텍처

LightX2V는 4단계 증류(Step Distillation) 기술을 통해 기존 40~50단계의 추론 과정을 4단계로 압축하여 추론 속도를 획기적으로 개선했다. 구체적으로, Sage Attention, Flash Attention 등 최신 연산자를 통합하여 GPU 자원 활용도를 높였다. 따라서, 8GB VRAM에서도 14B 모델을 구동할 수 있으며, 지능형 매개변수 오프로딩을 통해 메모리 사용량을 최적화했다.

다양한 모델 및 하드웨어 지원

HunyuanVideo-1.5, Wan2.1, Qwen-Image 등 다양한 오픈소스 모델을 지원하며, FP8, NVFP4 등 다양한 양자화 기법을 제공한다. 반면, 특정 모델 및 기능은 제한적일 수 있으며, 최신 모델 지원을 위해 지속적인 업데이트가 필요하다. 따라서, Hugging Face 페이지를 통해 최신 모델 및 기능을 확인하고, Docker 환경을 활용하여 간편하게 배포하는 것을 권장한다.

Gradio, ComfyUI를 활용한 유연한 배포

LightX2V는 Gradio를 통한 간편한 웹 인터페이스와 ComfyUI를 활용한 노드 기반 워크플로우 인터페이스를 제공하여, 사용자 맞춤형 환경을 구축할 수 있다. 구체적으로, Windows One-Click Deployment를 통해 환경 설정을 자동화하여 초보자도 쉽게 접근할 수 있도록 지원한다. 따라서, 사용자는 자신의 필요에 따라 Gradio, ComfyUI, Windows One-Click Deployment 중 적합한 배포 방식을 선택하여 AI 비디오 생성 기능을 활용할 수 있다.

ModelTC / LightX2V