입사 첫날, 36시간 점검을 겪은 신입 엔지니어의 생생한 경험담!
by DD
3년 전
조회수 4
신규 입사 후 36시간 점검을 겪으며 데이터베이스 장애에 대응하는 과정을 경험함
CockroachDB 클러스터 문제로 인해 데이터 복구를 위해 Spark를 활용함
Kafka와 Elastic Stack 모니터링을 통해 서비스 재개 후 안정성을 확인
데이터베이스 장애 원인과 복구 과정
데이터베이스 클러스터 문제로 인해 데이터 인식 불가 상황 발생. CockroachDB의 스토리지 레이어에서 SST 파일을 CSV 파일로 변환하는 작업을 진행. 구체적으로 Spark를 활용하여 7TB에 달하는 데이터를 병합하고, 새로운 클러스터로 데이터 이주를 수행했다.
장애 대응 과정에서의 기술적 도전
장애 대응 과정에서 EC2 인스턴스 부족 문제가 발생. Spark 노드를 최대한 활용하기 위해 AWS 도쿄 리전의 모든 R계열 인스턴스를 사용. 따라서 데이터 이주 작업에 다른 인스턴스까지 동원되었고, 데이터 정합성 검증을 통해 서비스 재개를 준비했다.
장애 이후 서비스 안정성 확보
서비스 재개 후 Kafka와 Elastic Stack 메트릭을 모니터링하여 안정성을 확보. 로깅 인프라를 통해 부하 감소를 확인하고, 데이터플랫폼셀 뿐만 아니라 전사적으로 복구 완료를 확인했다. 결과적으로 서비스 안정성을 확보했다.
댓글 0
첫 번째 댓글을 남겨보세요!