우아한형제들, 장애 대응, 시스템으로 승부한다!

by DD
4개월 전
조회수 90

First Action(초동 조치)의 중요성을 강조하며, 롤백(Rollback)과 핫픽스(Hotfix) 간의 고객 영향 차이를 분석

장애 관리 라이프사이클(Incident Management Lifecycle)을 정의하여 장애를 탐지, 인지, 대응, 복구, 재발 방지까지의 흐름을 체계화

MTTD(평균 탐지 시간), MTTR(평균 복구 시간), MTTFA(평균 초동 조치 시간) 등 시간 기반 메트릭을 통해 장애 대응 속도와 병목을 측정

장애 대응을 개인의 역량이 아닌 시스템과 프로세스로 개선하며, 데이터 중심의 AI Observability 체계 구축을 목표로 함

장애 관리 라이프사이클은 지속적인 점검과 학습을 통해 진화하며, AIOps로의 확장을 지향

First Action의 중요성: 롤백(Rollback) vs 핫픽스(Hotfix)

본문에서는 장애 발생 시 First Action(초동 조치)의 중요성을 강조하며, 롤백(Rollback)과 핫픽스(Hotfix)의 차이를 분석한다. 롤백은 즉시 문제 변경 사항을 되돌려 고객 영향을 최소화하지만, 핫픽스는 원인 파악 및 코드 수정, 배포에 시간이 소요되어 서비스 중단 시간을 늘린다.

롤백: 빠른 대응(Fast Response) 가능, 문제 원인 분석 시간 확보

핫픽스: 근본적인 문제 해결, 추가적인 배포 절차 필요

결과적으로, First Action의 선택은 장애 지속 시간과 고객 영향에 직접적인 영향을 미치며, 롤백과 같은 사전 정의된 기계적 완화 조치가 중요함을 시사한다.

장애 관리 라이프사이클(Incident Management Lifecycle)의 정의

우아한형제들은 장애를 탐지, 인지, 대응, 복구, 재발 방지까지의 흐름으로 정의하는 장애 관리 라이프사이클(Incident Management Lifecycle)을 제시한다. 이는 장애 대응 전 과정을 동일한 구조와 언어로 설명하기 위함이다.

잠재적 장애 상태(Potential-Incident Lifecycle): 이상 탐지 단계(Anomaly)

실제 장애 상태(Incident Lifecycle): 장애 인지 및 전파, 분석, 원인 확인 및 조치, 모니터링, 해소 확인 및 전파, 예방 및 피해 최소화 단계

이러한 라이프사이클은 First Action을 포함한 각 단계의 시간 기반 메트릭을 측정하는 기반이 되며, 조직 전체가 같은 기준으로 장애를 바라보고 개선점을 도출하도록 돕는다.

핵심 메트릭(Metrics)과 운영 개선

우아한형제들은 장애 대응의 속도와 병목을 파악하기 위해 시간 기반 메트릭을 활용한다. MTTD(평균 탐지 시간), MTTR(평균 복구 시간), MTTFA(평균 초동 조치 시간), MTTEA(평균 유효 조치 시간), MTTIR(평균 보고 완료 시간), MTTPM(평균 후속 조치 완료 시간) 등을 측정하여 개선점을 찾는다.

MTTD: 탐지 및 인지 체계의 신뢰도 점검

MTTR: 대응 및 복구 체계의 성능 측정

MTTA: 조치 단계의 효율성 평가

이러한 메트릭은 단순히 속도를 측정하는 것이 아니라, 장애 대응 과정의 병목을 식별하고 개선 방향을 제시하는 운영 도구로 활용된다.

MTTFA(평균 초동 조치 시간) 단축을 위한 노력

MTTFA(Mean Time to First Action)는 장애 발생 후 사전 정의된 기계적 조치, 즉 First Action이 실행되기까지의 평균 시간을 의미한다. 우아한형제들은 롤백(Rollback)이나 스케일 조정과 같은 1차 완화 조치를 First Action으로 정의하고, 이 시간을 단축하기 위해 노력한다.

롤백 경로 단순화

스케일 조정 자동화

실행 전 추가 판단 및 준비 절차 최소화

MTTFA 단축은 고객 영향 최소화에 직결되며, 자동화와 실행 절차 단순화를 통해 달성할 수 있다.

데이터 중심의 AI Observability 체계 구축

우아한형제들은 장애 대응의 성패를 개인의 역량에 의존하는 대신 시스템과 프로세스로 결정하기 위해 노력한다. 이를 위해 장애 대응 과정에서 축적되는 데이터를 활용하여 데이터 중심의 AI Observability 체계를 구축하고 있다.

신뢰할 수 있는 신호 기반의 이상 원인 후보 신속 파악

필요한 조치 자동 추천

자동화 확장을 통한 사람의 개입 최소화

장기적으로는 AIOps(AI for IT Operations)를 통해 완화 조치와 복구까지 자동화하는 것을 목표로 한다.

장애 대응의 성패를 가르는 First Action: 우아한형제들의 장애 관리 라이프사이클