MySQL online alter 중 CPU 100% 장애? 해결 노하우 공개!

by DD
2년 전
조회수 8

AWS Aurora MySQL 환경에서 online alterCPU 100% 장애 발생

Percona Toolkit을 활용한 online alter 시도 및 chunk-size 옵션 튜닝

쿼리 최적화캐시 시스템 개선을 통해 CPU 사용률 안정화 달성

Percona Toolkit을 활용한 Online Alter

Percona Toolkit은 MySQL online alter를 위한 강력한 도구이다. Inplace algorithm의 제약 사항을 극복하고, 신규 테이블 생성, 트리거 설정, 데이터 복사 과정을 자동화한다. 따라서 서비스 중단 없이 스키마 변경을 적용할 수 있다.

쿼리 최적화와 캐시 시스템 개선

CPU 100% 장애의 원인은 쿼리 비효율캐시 사용 패턴에 있었다. 복합 인덱스 추가 시도 후, 쿼리 컨디션 단순화를 통해 성능을 개선했다. 스케줄러 서버 도입으로 캐시 갱신 횟수를 줄여 데이터베이스 부하 감소를 달성했다.

장애 대응 및 서비스 안정화 전략

장애 발생 시 문제 기능 비활성화를 통해 서비스 정상화를 우선해야 한다. 안전 장치 마련은 필수적이며, 모니터링 시스템 구축을 통해 이상 징후를 조기에 감지해야 한다. 따라서 장애 대응 매뉴얼을 구축하여 신속하게 대처해야 한다.

MySQL online alter부터 CPU 100% 장애까지