마이다스인, Amazon EKS 전환으로 비용 절감과 효율성 두 마리 토끼를 잡다!
AI 기반 채용 플랫폼 기업인 마이다스인은 Amazon ECS에서 Amazon EKS로 전환하여 급증하는 트래픽에 대응
GitOps 기반 관리를 통해 배포 자동화 및 인프라 코드화(Infrastructure as Code)를 구현하고, 자원 활용률 70% 이상 달성
Binpacking 전략과 Spot Instance 활용으로 자원 효율성을 극대화하여 비용 25% 절감 및 연간 AWS 비용 15% 추가 절감
Spot Instance 회수(Interruption)에 대한 자동 복구 시스템을 구축하여 안정성을 확보하고, 5분 내 환경 프로비저닝(Provisioning)을 가능하게 함
Amazon EKS 전환 배경: 확장성과 유연성 확보
마이다스인은 기존 Amazon ECS 환경에서 신규 서비스 요청, 환경 생성, 커스터마이징(Customizing) 요구 대응의 어려움을 겪었다. 특히, 채용 시즌의 급증하는 트래픽과 다양한 요구사항을 충족하기 위해 더 유연한 오케스트레이션 플랫폼이 필요했다. Amazon EKS로의 전환은 단순히 컨테이너(Container)를 옮기는 수준이 아니라, 운영 성숙도와 DevOps 모델 고도화를 위한 전략적 결정이었다. GitOps 기반 단일 레이어 관리, 환경별 유연한 확장, GenAI 통합에 최적화된 생태계 구축을 목표로 삼았다.
GitOps 기반 배포 자동화: 코드 리뷰 봇과 인프라 관리
Amazon EKS 전환 후, 모든 애플리케이션은 GitOps(Argo CD + Helm 차트) 기반 파이프라인에서 관리되었다. 기존 서비스별 배포 과정을 일원화하고, Pull Request 생성 시 Code Review Bot을 트리거하여 변경 사항을 검토했다. 어플리케이션 코드와 더불어 인프라를 구성하는 코드도 Infrastructure as Code로 관리하여 인프라와 실제 배포된 인프라 간의 Drift를 최소화했다. 이를 통해 배포 과정의 자동화와 안정성을 확보하고, 개발 생산성을 향상시켰다.
자원 활용 최적화: Binpacking 전략과 Long-term Metrics 분석
마이다스인은 노드 자원 활용 효율성을 극대화하기 위해 Binpacking 전략을 도입했다. 애플리케이션별 처리 한계치를 정량적으로 분석하고, 대형 노드에 파드를 밀집 배치하여 리소스 파편화를 최소화했다. Datadog 기반 Long-term Metrics 분석을 통해 requests/limits 값을 재산정하고, 공채/비공채 시즌을 구분하여 Right Sizing을 수행했다. QoS 클래스 구분(Burstable/Guaranteed) 및 JVM 워크로드(Heap/Non-Heap) 메모리 특성 반영을 통해 워크로드 안정성을 보장했다.
비용 절감 전략: Spot Instance 활용과 회수 대응 체계
개발·테스트 환경에 Spot Instances를 100% 활용하여 비용 절감을 시도했다. Spot Instance의 중단 알림(Interruption Notice) 발생 시 2분의 유예 시간을 활용하여 안전한 셧다운과 새로운 Spot Instance 확보가 가능하도록 Spot Instance 회수 대응 체계를 설계했다. SQS를 통한 중단 알림 수집, Karpenter를 활용한 신규 노드 사전 프로비저닝, preStop Hook + TerminationGracePeriodSeconds를 통한 세션 종료 보장, ReplicaCount=2 + PDB(minAvailable=1)로 최소 가용성 유지, 가용 영역(Topology Spread) 기반 분산 배치 등의 전략을 통해 안정성을 확보했다.
인프라 전환 성과: 자원 효율성 및 프로비저닝 시간 획기적 개선
Amazon EKS 전환을 통해 자원 활용률을 평균 40%에서 70% 이상으로 대폭 개선했다. 환경 생성 시간은 Terraform 기반 4시간에서 Amazon EKS 템플릿 기반 5분으로 획기적으로 단축되었다. Spot Instance와 Binpacking 전략을 통해 최대 25%의 비용 절감을 달성했으며, 전체 AWS 사용 비용을 연간 약 15% 수준으로 추가 절감했다. 엔터프라이즈급 네트워크 아키텍처 구축으로 보안과 안정성을 강화하여, 이후 GenAI를 활용한 자동화 전략의 안전한 실험 및 도입을 위한 기반을 마련했다.