Cloudflare, WAF 설정 오류로 25분간 서비스 중단
by DD
6개월 전
조회수 12
Cloudflare 네트워크에서 500 에러 발생, 약 25분간 서비스 중단
React Server Components 취약점 대응 중 WAF 설정 오류로 인한 문제
FL1 프록시의 룰셋 처리 로직 오류로 전체 트래픽 28%에 영향
FL1 프록시 아키텍처와 장애 원인
Cloudflare는 FL1 프록시를 사용하여 트래픽을 처리하며, WAF는 요청 바디를 분석한다. 구체적으로 룰셋 시스템에서 `execute` 액션 처리 중 Lua 예외가 발생했다. 따라서 500 에러가 발생하여 서비스 중단으로 이어졌다.
Rust 기반 FL2 프록시의 장점
FL1 프록시의 Lua 코드는 타입 시스템 부재로 인해 런타임 에러에 취약했다. Rust 기반의 FL2 프록시는 강력한 타입 시스템을 통해 이러한 오류를 방지한다. 반면 Rust 도입은 개발 난이도 증가와 기존 시스템과의 호환성 문제를 야기할 수 있다.
장애 재발 방지를 위한 전략
Cloudflare는 향상된 롤아웃 및 버전 관리, Break Glass 기능 강화, Fail-Open 에러 처리를 통해 장애 재발을 방지할 계획이다. 따라서 설정 변경의 안전성을 높이고, 장애 발생 시 영향 범위를 최소화할 수 있도록 노력한다.