딜리버리 프로덕트 개발팀, 로그 & 알람 관리로 서비스 안정성 UP!
by DD
1년 전
조회수 3
가짜 에러 알람으로 인한 무뎌짐을 해결하기 위해 로그 레벨 기준을 재정립함
에러(ERROR)와 경고(WARN) 로그를 구분하고, 알람 임계치를 설정하여 운영 효율성을 높임
그 결과, 시스템 에러 로그는 감소하고, 문제 상황에 대한 준 실시간 인지가 가능해짐
로그 레벨 정의 및 알람 설정
딜리버리 프로덕트 개발팀은 에러(ERROR)와 경고(WARN) 로그 레벨을 명확히 정의했다. 구체적으로 즉각적인 대응이 필요한 것은 ERROR로, 빈도가 높을 경우 문제 발생 가능성이 있는 것은 WARN으로 분류했다. 따라서, 알람 임계치를 설정하여 불필요한 알람을 줄이고, 문제 발생 시 신속하게 대응할 수 있도록 시스템을 구축했다.
가짜 에러와 진짜 에러 구분
가짜 에러 알람으로 인한 무뎌짐을 방지하기 위해, 딜리버리 팀은 가짜 에러와 진짜 에러를 구분하는 작업을 진행했다. 의도된 예외는 경고 로그로 변경하고, 공통 범위 알람을 설정하여 빈도를 조절했다. 반면, 외부 시스템 연동 실패와 같은 진짜 에러는 즉시 대응할 수 있도록 알람을 설정했다.
지속적인 로그 관리의 중요성
로그 관리는 지속적으로 이루어져야 한다. 새로운 에러 발생 시, 팀의 기준에 맞춰 티켓 생성 및 알람 예외 처리를 진행해야 한다. 따라서, 개발 환경에서부터 로그 관리 습관을 들이면 디버깅 능력 향상과 운영 문제 사전 예방 효과를 얻을 수 있다. 결과적으로, 개발자는 로그 분석 능력을 향상시킬 수 있다.