무신사, AI 인프라 구축기: 하이브리드 환경, 비용 절감, 그리고 혁신.
by DD
5개월 전
조회수 122
온프레미스 GPU 운영을 통해 AI 인프라 비용 95% 절감 구조를 구축함
EKS HybridNode를 활용, AWS와 온프레미스 환경을 통합하여 운영
Gateway API 기반 트래픽 우선순위 라우팅 적용으로 시스템 안정성 확보
하이브리드 클라우드 아키텍처 설계
무신사는 EKS HybridNode를 활용하여 온프레미스 GPU와 AWS EC2를 통합했다. 구체적으로 Cilium을 도입하여 VPC CNI를 대체하고, AutoMode의 제약을 극복했다. 따라서 하이브리드 환경에서 안정적인 AI 서비스 운영을 가능하게 했다.
네트워크 최적화: eBPF와 Gateway API
무신사는 kube-proxy를 eBPF Cilium으로 대체하여 레이턴시 0.3ms 감소를 달성했다. NLB로 전환하여 HTTP3를 지원하고, OpenTelemetry를 통해 로그/메트릭/트레이스를 통합했다. 결과적으로 저지연 AI 인프라 구축의 기반을 마련했다.
비용 절감과 확장성 확보
온프레미스 GPU 도입을 통해 최대 95% 비용 절감을 달성하고, Gateway API를 활용하여 트래픽 우선순위 라우팅을 구현했다. 우선순위 레이어링을 통해 시스템 안정성을 높이고, 블랙프라이데이와 같은 트래픽 폭증에도 대응할 수 있는 구조를 만들었다.