카카오페이, Kubeflow 기반 AI 플랫폼 구축으로 개발 효율 UP!
by DD
6개월 전
조회수 6
AI 플랫폼 부재로 인한 반복적인 수작업과 개발 속도 저하 문제를 해결하고자 함
Kubeflow 기반 플랫폼 도입 및 H200 GPU, MIG 등 기술적 난제를 극복함
Knative Scale to Zero 대신 최소 복제본 유지 전략으로 서비스 안정성 확보
Kubeflow 선택의 기술적 배경
카카오페이는 표준화, 확장성, 통합을 위해 Kubeflow를 선택했다. 구체적으로 파이프라인과 컨테이너 기술을 통해 환경 의존성을 해결하고, 쿠버네티스 기반으로 자원 효율성을 극대화했다. 따라서 AI 개발 환경을 일원화하고, 개발자들이 모델 개발에 집중하도록 지원한다.
GPU 자원 최적화를 위한 하이브리드 클러스터
H200 GPU의 성능을 최대한 활용하기 위해 RDMA와 Infiniband 네트워크를 도입했다. 하이브리드 클러스터를 구축하여 GPU 노드 간 직접 통신을 가능하게 했고, MIG를 통해 GPU 활용률을 높였다. 결과적으로 학습 시간 단축과 비용 효율성을 동시에 달성했다.
Knative와 KServe를 활용한 비용 최적화 전략
Knative Scale to Zero 대신 최소 복제본 유지 전략을 선택하여 콜드 스타트 문제를 해결했다. KServe를 통해 GPU 자원 분할을 최적화하고, 사용처, 모델, 크기를 기준으로 GPU 할당 정책을 수립했다. 따라서 서비스 응답 속도와 자원 효율 사이의 균형을 맞췄다.