SLI/SLO 도입으로 서비스 건강을 측정하고 개선하세요!

by DD
9개월 전
조회수 11

SLI/SLO는 서비스 품질을 정량적으로 측정하고 목표를 설정하는 SRE 핵심 개념임

29CM은 DatadogPrometheus + Grafana를 활용하여 SLI/SLO를 설정하고 모니터링함

장애 발생 시 MTTD/MTTA 지표를 활용, 지속적인 개선을 통해 서비스 안정성을 확보함

SLI/SLO, SRE의 핵심 지표

SLI(Service Level Indicator)는 서비스 상태를 나타내는 지표로, 가용성, 지연 시간, 처리량 등을 측정한다. 따라서 SLO(Service Level Objective)는 SLI에 대한 목표치를 설정하여 서비스 품질을 관리한다. 에러 버짓 계산의 기반이 되며, 서비스 안정성 확보에 기여한다.

Datadog vs Prometheus + Grafana

29CM은 Datadog을 통해 다양한 SLI 메트릭을 통합 관리하고, SLO 기능에러 버짓 관리를 활용한다. Prometheus + Grafana 조합은 커스텀 메트릭 기반의 정교한 모니터링에 적합하며, PromQL을 통해 복잡한 지표 계산 및 시각화를 지원한다.

지속적인 개선을 위한 노력

SLI/SLO는 설정 이후에도 지속적인 개선이 필요하며, 29CM은 주간 회고를 통해 SLI/SLO 달성률을 점검한다. MTTD/MTTA 지표를 활용하여 장애 대응 속도를 측정하고, 문제 해결 프로세스를 구축하여 서비스 품질을 향상시킨다. 결과적으로 서비스 안정성을 확보한다.

서비스의 건강을 수치화 할 수 있을까? — SLI/SLO