네이버, 쿠버네티스 GPU 클러스터 오토스케일링 사례 공개!
by DD
10개월 전
조회수 10
NAVER ENGINEERING DAY 2025에서 발표된 AI 서비스 오토스케일링 사례 공개
쿠버네티스 GPU 클러스터 환경에서 자체 HPA 시스템 구축
글로벌 유저 트래픽에 동적으로 대응하는 오토스케일링 적용
GPU 클러스터 오토스케일링 아키텍처
쿠버네티스 환경에서 GPU 자원 관리는 AI 서비스 성능에 매우 중요하다. 구체적으로 HPA(Horizontal Pod Autoscaler)를 활용하여 GPU 사용량에 따라 파드를 자동 증감시킨다. 따라서 리소스 효율성을 높이고 서비스 안정성을 확보한다.
HPA 시스템 구축 시 고려사항
자체 HPA 시스템 구축 시 GPU 사용률 지표를 정확하게 수집하는 것이 중요하다. Prometheus와 같은 모니터링 도구를 활용하여 GPU 메모리 사용량, GPU 활용률 등을 측정한다. 반면, 지표 수집 및 분석 과정에서 오버헤드 발생을 최소화해야 한다.
오토스케일링 적용 효과
오토스케일링을 통해 글로벌 트래픽 변동에 유연하게 대응할 수 있다. 트래픽 급증 시 GPU 자원 자동 할당으로 서비스 지연을 방지한다. 결과적으로 사용자 경험(UX)을 개선하고 AI 서비스 가용성을 향상시킨다.