토스증권, GPU 가상화 MIG 도입으로 GPU 자원 효율 UP!

by DD
10개월 전
조회수 20

GPU 자원 낭비를 해결하기 위해 MIG(Multi-Instance GPU) 기술을 도입, 자원 효율성을 높임

Kubernetes 환경에서 nvidia-device-plugin 재배포 및 dcgm-exporter 설정을 통해 MIG 모니터링 환경 구축

MIG를 활용하여 GPU 사용률을 높이고, 다양한 워크로드에 유연하게 대응

MIG 기술의 핵심 원리

MIG(Multi-Instance GPU)는 하나의 GPU를 여러 개의 독립된 인스턴스로 분할하여 사용한다. 구체적으로 각 인스턴스는 L2 캐시, 메모리 대역폭, 컴퓨팅 자원을 할당받아 자원 격리를 보장한다. 따라서, 워크로드 간 간섭 없이 안정적인 운영이 가능하다.

MIG vs MPS: 기술적 비교

MIG는 하드웨어 기반 가상화로 자원 격리가 뛰어나지만, 지원 GPU 모델에 제약이 있다. 반면, MPS(Multi-Process Service)는 소프트웨어 방식이지만, 성능 간섭 발생 가능성이 존재한다. 따라서, MIG안정성을, MPS유연성을 중시하는 경우에 적합하다.

Kubernetes 환경에서의 MIG 적용

Kubernetes 환경에서 MIG를 사용하려면 nvidia-device-plugin 재배포가 필수적이다. 구체적으로 MIG_STRATEGY 환경 변수를 설정하고, dcgm-exporter 설정을 변경해야 한다. 따라서, MIG 인스턴스개별 리소스로 인식하고, 모니터링을 통해 GPU 사용률을 정확하게 파악할 수 있다.

GPU를 밀도 있게 쓰는 방법 - 토스증권의 GPU 가상화(MIG) 도입기

댓글 0

첫 번째 댓글을 남겨보세요!