장애, 얼마나 심각한가요? 고객 경험 기반의 비즈니스 심각도 정의

by DD
3개월 전
조회수 24

큐레이터 서비스의 비즈니스 중요도 증가에 따라, 장애 발생 시 대응 우선순위 결정의 필요성이 대두됨

핵심 사용자 여정(CUJ), CSP/NON-CSP 구분, CSP Priority 정의, SEV 설계 등 4단계 프로세스를 통해 비즈니스 심각도 정의

장애 대응 우선순위를 기술 지표가 아닌, 고객 경험(Customer Experience) 저하와 비즈니스 영향 기준으로 판단

대시보드(Dashboard) 및 얼럿 시스템(Alert System) 구축을 통해 장애 대응 시간 단축 및 프로덕트-엔지니어링 간 소통 효율 증대

CUJ(핵심 사용자 여정) 정의의 중요성

본문에서는 큐레이터 서비스의 핵심 사용자 여정(CUJ) 정의를 통해 장애 대응의 출발점을 마련했다고 설명한다. CUJ는 서비스가 사용자에게 제공해야 하는 핵심 가치를 정의하고, 장애 발생 시 비즈니스 영향도(Business Impact)를 판단하는 기준이 된다.

CUJ 정의: 큐레이터가 링크를 공유하고, 고객이 구매하며, 기여가 측정되는 일련의 과정

핵심 가치: 큐레이터가 추천 상품 판매로 수익을 얻는 경험 제공

영향: CUJ 중단 시 서비스 핵심 가치(수익 창출)가 중단됨

CUJ를 통해 장애의 심각도(Severity)를 정량적으로 평가하고, 우선순위를 결정하는 기반을 마련했다.

CSP(Critical Serving Path)와 NON-CSP 구분

글에서는 CUJ를 구성하는 기능들을 CSP(Critical Serving Path)와 NON-CSP로 구분하여, 장애가 비즈니스에 미치는 영향을 세분화했다. CSP는 매출 및 전환에 직접적인 영향을 주는 핵심 경로를 의미하며, NON-CSP는 비즈니스 영향이 제한적인 경로를 의미한다.

CSP: 제휴 링크 생성, 고객 유입 트래킹, 구매 기여 측정

NON-CSP: 큐레이터 수익 활동 이전 기능, 내부 운영 기능

효과: 모든 장애를 동일하게 취급하는 대신, 비즈니스에 치명적인 경로(Critical Path)를 명확히 식별

CSP 구분을 통해 장애 대응의 효율성(Efficiency)을 높이고, 자원 투입의 우선순위를 결정할 수 있다.

CSP Priority 정의: 고객 경험과 비즈니스 영향의 균형

본문에서는 CSP 내에서도 고객 경험(Customer Experience) 저하 정도와 비즈니스 영향도를 고려하여 Priority를 정의했다. P0부터 P3까지 4단계로 구분하여, 장애 발생 시 대응 우선순위(Response Priority)를 결정하는 기준을 마련했다.

P0: 고객 구매 경험 단절 (가장 높은 심각도)

P1: 큐레이터 수익 활동 경험 단절

P2: 큐레이터 일반 서비스 이용 경험 단절

P3: 운영·관리 경험 단절 (가장 낮은 심각도)

CSP Priority 정의는 장애 대응의 일관성(Consistency)을 확보하고, 고객 중심의 의사 결정을 가능하게 한다.

SLI, SLO, SEV 연동을 통한 장애 판단 체계 구축

글에서는 SLI(Service Level Indicator), SLO(Service Level Objective), SEV(Severity)를 연동하여 장애를 판단하는 체계를 구축했다. SLI는 서비스의 건강 상태를 측정하는 지표이며, SLO는 허용 가능한 지표의 범위를 정의한다. SEV는 SLO를 벗어나는 정도와 비즈니스 영향을 고려하여 결정된다.

SLI: 가용성, 응답 지연, 에러율 등

SLO: SLI의 목표치

SEV: SLO 위반 정도 및 비즈니스 영향에 따라 결정

이러한 체계는 데이터 기반(Data-driven)의 객관적인 장애 판단을 가능하게 하며, 팀 전체의 의사 결정(Decision Making) 효율성을 높인다.

대시보드(Dashboard) 및 얼럿(Alert) 시스템 구축

본문에서는 CUJ를 기준으로 대시보드와 얼럿 시스템을 구축하여, 장애 발생 시 빠른 대응(Fast Response)을 지원하고 있다. 대시보드는 CUJ를 구성하는 주요 기능별 SEV를 시각적으로 보여주며, 얼럿은 문제의 위치와 심각도를 즉시 파악할 수 있도록 설계되었다.

대시보드: CUJ별 SEV, 에러율, 지연 시간 표시

얼럿: 문제 위치, 유형, SEV 정보 제공

효과: 장애 대응 시간 단축, 프로덕트-엔지니어링 간 소통 효율 증대(Communication Efficiency)

결과적으로, 비즈니스 심각도 정의를 통해 장애 대응의 효율성을 높이고, 고객 경험(Customer Experience)을 최우선으로 고려하는 운영 체계를 구축했다.

“이 장애, 얼마나 심각한가요?” 사용자 경험을 기준으로 비즈니스 심각도를 정의하다