토스증권, GPU 가상화 MIG 도입으로 GPU 자원 효율 UP!
by DD
10개월 전
조회수 20
GPU 자원 낭비를 해결하기 위해 MIG(Multi-Instance GPU) 기술을 도입, 자원 효율성을 높임
Kubernetes 환경에서 nvidia-device-plugin 재배포 및 dcgm-exporter 설정을 통해 MIG 모니터링 환경 구축
MIG를 활용하여 GPU 사용률을 높이고, 다양한 워크로드에 유연하게 대응
MIG 기술의 핵심 원리
MIG(Multi-Instance GPU)는 하나의 GPU를 여러 개의 독립된 인스턴스로 분할하여 사용한다. 구체적으로 각 인스턴스는 L2 캐시, 메모리 대역폭, 컴퓨팅 자원을 할당받아 자원 격리를 보장한다. 따라서, 워크로드 간 간섭 없이 안정적인 운영이 가능하다.
MIG vs MPS: 기술적 비교
MIG는 하드웨어 기반 가상화로 자원 격리가 뛰어나지만, 지원 GPU 모델에 제약이 있다. 반면, MPS(Multi-Process Service)는 소프트웨어 방식이지만, 성능 간섭 발생 가능성이 존재한다. 따라서, MIG는 안정성을, MPS는 유연성을 중시하는 경우에 적합하다.
Kubernetes 환경에서의 MIG 적용
Kubernetes 환경에서 MIG를 사용하려면 nvidia-device-plugin 재배포가 필수적이다. 구체적으로 MIG_STRATEGY 환경 변수를 설정하고, dcgm-exporter 설정을 변경해야 한다. 따라서, MIG 인스턴스를 개별 리소스로 인식하고, 모니터링을 통해 GPU 사용률을 정확하게 파악할 수 있다.
댓글 0
첫 번째 댓글을 남겨보세요!