올리브영, 인시던트 관리 노하우 공개!

by DD
2년 전
조회수 2

인시던트 발생 시, 신속한 대응을 위해 슬랙 기반의 알림 및 공유 체계를 구축함

CSP(Critical Serving Path) 정의를 통해 장애 대응 우선순위를 설정하고, 인시던트 레벨을 세분화함

5 Why Questions 기반의 인시던트 보고서 작성 및 정기적인 리뷰 미팅을 통해 재발 방지 노력

장애 대응, 슬랙으로 시작

올리브영은 인시던트 발생 시, 슬랙 채널을 통해 신속하게 상황을 공유한다. 구체적으로, /으악 명령어를 통해 장애 채널을 생성하고, 각 팀장에게 알림을 전송한다. 따라서, 빠른 상황 공유와 문제 해결을 위한 협업이 가능하도록 시스템을 구축했다.

CSP 기반의 인시던트 레벨 정의

올리브영은 CSP(Critical Serving Path)를 정의하여 장애의 중요도를 판단한다. 매출 영향도고객 영향도를 기준으로 인시던트 레벨을 설정하고, 이해관계자들과 협의를 진행한다. 반면, 이러한 레벨 정의는 자원 할당대응 우선순위를 결정하는 데 중요한 역할을 한다.

5 Why Questions을 활용한 근본 원인 분석

인시던트 발생 후, 5 Why Questions 기법을 활용하여 근본 원인(Root Cause)을 분석한다. 구체적으로, 인시던트 보고서를 작성하고, 정기적인 리뷰 미팅을 통해 재발 방지 대책을 논의한다. 따라서, 단기/중장기적인 재발 방지 대책을 수립하고 관리한다.

올리브영은 인시던트를 어떻게 관리하고 있는가?