“서버 죽음” 알림, Grafana OnCall과 Amazon Connect로 즉시 해결!
by DD
5개월 전
조회수 32
Grafana OnCall과 Amazon Connect를 활용하여 비용 효율적인 온콜 시스템 구축
AWS Target Group의 비정상 트래픽 감지 및 자동 전화 알림 구현
알림 중복 방지 및 대응 시간 단축을 통해 운영 효율성 극대화
LGTM Stack 기반 온콜 시스템 아키텍처
Grafana OnCall은 LGTM Stack (Loki, Grafana, Tempo, Mimir)과 통합되어 관측 데이터를 기반으로 알림을 발생시킨다. 구체적으로 Mimir의 메트릭 경보가 트리거되면, OnCall은 라우팅 규칙에 따라 담당자에게 Slack 알림을 발송한다. 따라서, 장애 발생부터 대응까지의 전 과정을 Grafana 생태계 안에서 통합 관리한다.
비용 효율적인 자동 전화 알림 시스템
Amazon Connect와 Grafana OnCall을 활용하여 자동 전화 알림 시스템을 구축했다. AWS Target Group의 Unhealthy 상태를 감지하여, Grafana OnCall은 RDS DB에서 온콜 담당자 정보를 조회한다. 반면, Amazon Connect는 사용량 기반 과금으로, 라이선스 비용 없이 실제 통화 시간에 대해서만 요금이 발생한다.
알림 중복 방지 및 자동화된 알림 제어
알림 상태를 DB에 기록하여 알림 피로도를 줄였다. 구체적으로, status='firing' 상태에서는 전화를 유지하고, status='acked' 상태에서는 전화/알림을 즉시 중단한다. 따라서, 알림 노이즈 최소화와 대응 시간 단축 효과를 얻을 수 있으며, 자동 에스컬레이션을 통해 2차 담당자, 팀 리더에게 알림을 전달한다.