넷플릭스, 인시던트 관리 시스템 혁신
by DD
8개월 전
조회수 23
중앙 집중형 인시던트 관리 방식에서 벗어나, 엔지니어들이 직접 인시던트를 관리하도록 시스템을 변경함
Incident.io라는 툴을 도입하여, 직관적인 UI와 내부 데이터 연동을 통해 사용성을 높임
20%의 엔지니어 팀에서 시작하여, 6개월 만에 50% 이상의 팀이 새로운 시스템을 사용하게 됨
중앙 집중형 관리의 한계
과거 넷플릭스는 중앙 SRE팀이 모든 인시던트를 관리했다. Jira와 단일 Slack 채널을 사용했지만, 서비스 규모가 커지면서 확장성 문제에 직면했다. 따라서, 더 많은 팀이 인시던트를 인지하고, 대응할 수 있도록 시스템을 개선할 필요가 있었다.
Incident.io 도입의 효과
Incident.io는 직관적인 UI와 내부 데이터 연동을 통해 엔지니어들의 사용성을 높였다. 표준화된 프로세스와 유연한 커스터마이징을 통해, 팀별 맞춤형 대응과 일관성 있는 메타데이터 관리를 동시에 가능하게 했다. 결과적으로, 인시던트 대응 시간 단축 및 학습 기회 확대를 이끌었다.
성공적인 문화적 변화
단순한 툴 도입을 넘어, 조직적인 투자와 교육을 통해 인시던트 관리 문화를 정착시켰다. 경량화된 문서와 데모 영상을 제작하여, 엔지니어들의 진입 장벽을 낮췄다. 따라서, 엔지니어들은 인시던트를 '두려운 문제'가 아닌 '학습 기회'로 인식하게 되었고, 적극적인 참여를 유도했다.