올리브영 QA, AWS Lambda로 장애 대응 시간 단축!
by DD
2년 전
조회수 6
슬랙 알림의 한계를 극복하고자 AWS Lambda 기반의 On-call 시스템을 도입
Lambda를 활용하여 슬랙 채널 생성 및 Jira 티켓 자동 생성 기능 구현
장애 발생 시 즉각적인 알림 전송으로 장애 인지 시간 단축 및 관리 효율성 증대
Lambda 기반 On-call 시스템 아키텍처
AWS Lambda는 서버리스 환경에서 슬랙 채널 생성 및 Jira 티켓 자동 생성을 담당한다. 구체적으로, 슬랙 봇 명령어를 통해 인시던트가 발생하면 Lambda 함수가 트리거되어 채널을 생성한다. 따라서, 장애 알림 전파 자동화를 통해 빠른 대응이 가능해졌다.
Jira 연동 시 발생한 문제와 해결
사내망 Jira에 대한 AWS Lambda 접근 시 방화벽 문제가 발생했다. SRE의 도움을 받아 특정 대역에서만 접근을 허용하도록 설정하여 문제를 해결했다. 코드 분리를 통해 가독성을 높이고, 유지보수성을 개선하여 시스템의 안정성을 확보했다.
On-call 시스템 도입의 효과
기존 슬랙 알림 누락으로 인한 장애 인지 지연 문제를 해결했다. Lambda를 통해 장애 발생 즉시 알림을 전송하고, Jira 티켓 자동 생성으로 관리 효율성을 높였다. 결과적으로, 장애 처리 시간 단축 및 QA 팀의 만족도 향상을 이끌어냈다.