Cloudflare, ClickHouse 설정 오류로 대규모 장애 발생
by DD
6개월 전
조회수 11
Cloudflare 네트워크에서 5xx 에러 발생, 핵심 트래픽 전송 실패
ClickHouse 데이터베이스 권한 변경으로 Bot Management 시스템 설정 파일 문제 발생
Bot Management 모듈의 설정 파일 크기 초과로 인해 서비스 중단, 17:06에 정상화
ClickHouse 쿼리 권한 변경의 파장
Cloudflare는 ClickHouse를 사용하여 Bot Management 시스템의 설정 파일을 생성했다. 구체적으로, 쿼리 권한 변경으로 인해 중복된 데이터가 포함된 설정 파일이 생성되었다. 따라서, Bot Management 모듈이 해당 파일을 처리하지 못하고 5xx 에러를 반환하며 장애가 발생했다.
Bot Management 시스템의 취약점
Cloudflare의 Bot Management 시스템은 설정 파일 크기 제한을 가지고 있었다. 반면, ClickHouse 쿼리 오류로 인해 생성된 설정 파일은 크기 제한을 초과했다. 결과적으로, 시스템은 예상치 못한 에러를 발생시키며, CDN 및 보안 서비스에 영향을 미쳤다.
장애 복구를 위한 Cloudflare의 노력
Cloudflare는 장애 원인 분석을 통해 Bot Management 설정 파일의 문제점을 파악했다. 구체적으로, 이전 버전의 설정 파일로 롤백하여 장애 복구를 시도했다. 따라서, 17:06에 모든 서비스가 정상화되었지만, 향후 재발 방지를 위한 노력이 필요하다.