배달의민족, 서비스 이상 탐지 시스템으로 장애를 놓치지 않다!

by DD
6개월 전
조회수 8

서비스 이상 탐지 시스템 도입으로 기존 모니터링의 한계를 극복하고 장애 탐지율 70% 향상을 달성함

중앙값(Median) 기반의 이상 감지 기법을 활용하여 실시간 탐지 및 오탐 최소화

경보 정밀도 11배 향상, 장애 전파 시간 74% 단축으로 고객 서비스 안정성 강화

서비스 이상 탐지 시스템 아키텍처

배달의민족은 서비스 지표를 기반으로 이상 탐지 시스템을 구축했다. 구체적으로 중앙값(Median)을 활용하여 과거 데이터와 현재 값을 비교하고, 임계치를 초과하면 경보를 발생시킨다. 따라서 실시간 장애 탐지오탐 방지를 동시에 달성하며, 장애 전파 시간 단축에 기여했다.

중앙값 기반 탐지 기법의 장단점

중앙값 기반 이상 탐지는 직관적인 분석이상치에 강한 장점을 가진다. 반면, 지표의 변동성이 심한 경우 오탐 가능성이 존재한다. 따라서 임계 도달 횟수를 설정하여 오탐을 줄이고, 지표별 튜닝을 통해 시스템의 정확도를 높이는 것이 중요하다.

장애 대응 프로세스 자동화 전략

우아한형제들은 장애 경보와 함께 자동화된 대응 프로세스를 구축했다. 구체적으로 Opsgenie On-Call 담당자 호출, 장애 전파 채널 자동 생성을 통해 신속한 대응을 지원한다. 따라서 장애 대응 시간 단축고객 만족도 향상을 동시에 달성했다.

우아한형제들이 장애를 놓치지 않고 탐지하는 방법