요기요, 카오스 엔지니어링으로 시스템 안정성 확보!
by DD
7개월 전
조회수 3
카오스 엔지니어링 도입을 위한 요기요 서비스의 실험 대상 및 환경을 정의함
Pod 네트워크 지연 및 외부 API 통신 장애를 시뮬레이션하는 카오스 실험 시나리오를 작성함
AWS FIS를 활용하여 Istio 환경에서 발생하는 문제와 해결 방법을 제시함
Istio 환경에서의 FIS Pod 문제 해결
Istio 환경에서 AWS FIS Pod가 API 서버와 통신하지 못하는 문제가 발생했다. 구체적으로 Istio Proxy(Envoy)가 준비되기 전에 FIS Pod가 API 서버에 접근을 시도했기 때문이다. 따라서 Istio 사이드카 주입 비활성화를 통해 문제를 해결했다. 결과적으로 FIS Pod의 정상적인 실행을 보장했다.
FIS 임시 컨테이너 권한 문제 분석
AWS FIS를 사용한 장애 주입 과정에서 임시 컨테이너의 root 권한 부족 문제가 발생했다. Pod-Network-Latency 액션을 위해서는 root 권한이 필요하기 때문이다. 반면 요기요 멤버십 서비스는 보안 강화를 위해 root 권한을 사용하지 않았다. 따라서 실험 환경에 한정하여 root 권한을 임시로 허용했다.
카오스 엔지니어링 적용을 위한 조언
카오스 엔지니어링은 시스템의 안정성 확보를 위한 중요한 방법이다. 구체적으로 실험 대상 서비스 선정, 시나리오 작성, 모니터링 지표 정의가 필요하다. 따라서 LitmusChaos, Chaos Mesh 등 다양한 도구를 활용하여 지속적인 실험을 수행하고, 시스템의 취약점을 개선해야 한다.
댓글 0
첫 번째 댓글을 남겨보세요!