컬리 장바구니 추천, 실시간 서빙 아키텍처 구축 노하우 공개!

TorchServe 기반의 실시간 추천 모델 서빙 아키텍처를 구축하고, CPU Clock Speed 튜닝을 통해 응답 시간 단축을 달성함

무중단 배포를 위해 GracefulShutdown을 적용하고, EKS 환경에서의 다운타임 문제를 해결함

MLOps 시스템을 구축하여 모델 배포 자동화 및 Datadog을 활용한 모니터링 시스템을 구축함

TorchServe 성능 최적화: CPU Clock Speed 튜닝

TorchServe는 CPU Clock Speed에 따라 성능 차이가 크므로, 고성능 인스턴스 선택이 중요하다. 구체적으로, TorchServe는 요청을 FIFO 방식으로 처리하므로, CPU Clock Speed가 높을수록 응답 시간 단축에 기여한다. 따라서, CPU Clock Speed가 높은 인스턴스를 선택하여 지연 시간 감소를 달성했다.

무중단 배포를 위한 GracefulShutdown 적용

무중단 배포를 위해 GracefulShutdown을 적용하여 다운타임을 방지했다. 구체적으로, PreStop Hook, terminationGracePeriodSeconds, ALB idle time 설정을 통해 EKS 환경에서 502 에러를 해결했다. 따라서, GracefulShutdown 설정을 통해 서비스의 안정성을 확보했다.

MLOps 시스템 구축 및 모니터링

MLOps 시스템을 구축하여 모델 배포를 자동화하고, Datadog을 활용하여 모니터링 시스템을 구축했다. 구체적으로, Kubeflow Pipeline을 통해 모델 학습 및 배포를 자동화하고, Datadog을 통해 CPU, Memory, RPS 등 주요 메트릭을 모니터링했다. 따라서, MLOps 시스템을 통해 개발 생산성 향상과 서비스 안정성을 동시에 달성했다.