Cloudflare, 장애 재발 막기 위해 'Code Orange' 발동
by DD
5개월 전
조회수 33
Cloudflare는 2번의 대규모 장애 발생 후, 재발 방지를 위한 'Code Orange' 계획을 발표함
구성 변경 시에도 소프트웨어 릴리스와 동일한 통제된 롤아웃 방식을 도입할 예정임
장애 발생 시 신속한 대응을 위해 내부 절차 및 시스템을 개선하고, 순환 종속성 제거를 추진함
구성 변경 배포 방식 개선
Cloudflare는 Quicksilver라는 자체 컴포넌트를 사용하여 구성 변경을 즉시 배포한다. HMD(Health Mediated Deployment) 시스템을 통해 구성 변경에도 통제된 롤아웃을 적용한다. 따라서, 장애 전파 방지 및 문제 발생 시 신속한 롤백이 가능하도록 개선될 예정이다.
서비스 간 장애 격리 및 안전성 확보
Cloudflare는 서비스 간 인터페이스 계약을 검토하여 장애 발생 시나리오를 대비한다. Bot Management 서비스의 실패를 예시로, 유효한 기본값 설정 및 트래픽 허용을 통해 서비스 중단 최소화를 목표로 한다. 결과적으로, 고객 영향 최소화를 위한 노력을 기울인다.
긴급 상황 대응 능력 강화
장애 발생 시 신속한 문제 해결을 위해 'break glass' 절차를 개선한다. 순환 종속성 제거 및 접근 권한 관리를 통해 문제 해결 시간 단축을 목표로 한다. 따라서, 훈련 빈도 증가를 통해 모든 팀이 절차를 숙지하도록 하여 위기 대응 능력을 향상시킬 것이다.