Ray로 GPU 100% 활용! MLOps 혁신

by DD
10개월 전
조회수 8

Ray를 활용하여 GPU Util 100%를 달성한 배치 처리 기법 소개

확장 가능한 모델 서빙 아키텍처 구축

NAVER ENGINEERING DAY 2025 발표 세션 공개

Ray 분산 처리 아키텍처

Ray는 파이썬 기반의 분산 처리 프레임워크로, GPU 자원 활용률을 극대화한다. 구체적으로 TaskActor를 통해 병렬 처리를 지원하며, 분산 튜닝 기능을 제공한다. 따라서 ML 모델 학습추론 성능 향상에 기여한다.

배치 처리 최적화 기법

Ray를 활용한 배치 처리에서 GPU 메모리 관리가 핵심이다. Zero-Copy 기술을 통해 데이터 이동 비용을 줄이고, 병렬 데이터 로딩을 구현한다. 반면, 데이터 불균형 문제는 스케줄링 전략을 통해 해결해야 하며, 오버헤드 최소화가 중요하다.

확장 가능한 모델 서빙 아키텍처

Ray Serve를 통해 모델 서빙을 구축하고, Auto-scaling 기능을 활용하여 트래픽 변화에 대응한다. A/B 테스트를 통해 모델 성능을 지속적으로 개선하고, 모니터링 시스템을 구축하여 서비스 안정성을 확보한다. 따라서 지속적인 모델 배포가 가능하다.

Ray를 활용한 GPU Util 100% MLOps: 배치처리부터 모델 서빙까지