텍스트로 이미지를 생성하는 잠재 확산 모델

Stable Diffusion은 텍스트 입력을 기반으로 이미지를 생성하는 잠재 확산 모델(Latent Diffusion Model)임

10GB VRAM 이상의 GPU에서 실행 가능하며, 비교적 가벼운 모델 구조를 가짐

모델은 512x512 이미지로 사전 훈련되었으며, 상업적 사용은 라이선스에 따라 제한될 수 있음

잠재 확산 모델(Latent Diffusion Model) 아키텍처

Stable Diffusion은 다운샘플링 팩터 8 오토인코더(Downsampling-factor 8 Autoencoder)를 사용하며, 860M UNet과 CLIP ViT-L/14 텍스트 인코더를 포함한다. 훈련 데이터는 256x256 이미지로 사전 훈련된 후 512x512 이미지로 미세 조정되었다. 모델 카드(Model Card)를 통해 훈련 절차, 데이터, 의도된 사용에 대한 자세한 정보를 확인할 수 있다.

모델 훈련 과정 및 데이터

모델은 LAION-5B 데이터베이스의 하위 집합에서 훈련되었으며, Google의 Imagen과 유사하게 CLIP ViT-L/14 텍스트 인코더(Text Encoder)를 사용하여 텍스트 프롬프트에 따라 모델을 조건화한다. 훈련 데이터와 관련된 편향(Bias)과 오해(Misconceptions)가 모델에 반영될 수 있으므로, 사용 시 주의가 필요하다.

상업적 사용에 대한 라이선스 제한

Stable Diffusion은 CreativeML OpenRAIL M 라이선스(Open RAIL M license)를 따른다. 상업적 사용은 허용되지만, 모델의 제한 사항(Limitations)과 편향(Biases)을 고려하여 추가적인 안전 메커니즘을 갖추는 것이 권장된다. 데이터 미저장 정책(Zero-Retention Policy)을 통해 모델의 안전성을 확보해야 한다.

모델 가중치(Weights) 및 체크포인트

다양한 체크포인트가 제공되며, `sd-v1-1.ckpt`는 256x256 해상도에서 237k 단계, 512x512 해상도에서 194k 단계로 훈련되었다. `sd-v1-2.ckpt`는 `sd-v1-1.ckpt`에서 재개되었으며, 512x512 해상도에서 515k 단계로 훈련되었다. LAION-Aesthetics v2 5+ 데이터셋을 사용하여 미세 조정된 가중치도 제공된다.