AWS 중동 데이터센터 화재, 가동 중단 사태 발생

by DD
3개월 전
조회수 10

AWS 중동 지역(ME-CENTRAL-1) 데이터센터의 가용성 구역(Availability Zone, AZ) 화재로 인해 서비스 중단 발생

EC2 API 오류 및 인스턴스 연결 문제 발생, 복구에 수 시간 소요 예상

다른 AZ 또는 리전(Region)으로의 전환 권고, 중복성(Redundancy) 확보의 중요성 강조

데이터센터의 전쟁 위험 노출에 대한 커뮤니티의 우려와 데이터 격리 아키텍처(Data Isolation Architecture)의 중요성 제기

사고 원인 및 피해 규모

AWS는 중동 지역(ME-CENTRAL-1)의 가용성 구역(Availability Zone, AZ) mec1-az2에서 발생한 화재 사고로 인해 EC2 인스턴스, EBS 볼륨(EBS Volumes), DB 인스턴스 등 주요 서비스에 장애가 발생했음을 발표했다. 사고는 데이터센터에 물체가 충돌하면서 발생했으며, 이로 인해 전력 공급이 중단되었다. AWS는 다른 AZ 및 리전으로의 전환을 권고하며, 복구에 수 시간이 소요될 것으로 예상했다.

복구 과정 및 기술적 문제

AWS는 EC2 API(AllocateAddress, AssociateAddress 등) 오류 해결에 집중하며, 전력 복구와 병행하여 서비스 정상화를 시도했다. 특히, AssociateAddress API의 오류를 해결하기 위해 여러 경로로 접근했으며, 고객들에게 API 요청 재시도를 권고했다. 또한, 다른 AZ로의 트래픽 분산을 통해 서비스 가용성을 확보하려 노력했다. 데이터 격리 아키텍처(Data Isolation Architecture)를 통해 특정 AZ의 장애가 전체 서비스에 미치는 영향을 최소화하려는 노력이 엿보인다.

데이터센터 운영의 위험성

커뮤니티에서는 전쟁 및 외부 요인으로 인한 데이터센터의 위험성에 대한 우려를 표명했다. 특히, 데이터센터가 전쟁의 표적이 될 가능성과 단일 AZ에 의존하는 아키텍처의 취약성을 지적했다. 데이터 격리 아키텍처(Data Isolation Architecture)를 통해 특정 AZ의 장애가 전체 서비스에 미치는 영향을 최소화하고, 멀티 리전(Multi-Region) 아키텍처를 구축하여 재해 복구 능력을 강화해야 한다는 의견이 제시되었다.

가용성 구역(Availability Zone) 설계의 중요성

이번 사고는 가용성 구역(Availability Zone, AZ) 설계의 중요성을 다시 한번 강조한다. 단일 AZ에 의존하는 경우, 해당 AZ의 장애는 전체 서비스에 심각한 영향을 미칠 수 있다. 따라서, 다중 AZ에 걸친 서비스 분산자동화된 장애 복구 시스템 구축이 필수적이다. 또한, 데이터 격리 아키텍처(Data Isolation Architecture)를 통해 장애의 영향을 최소화하고, 데이터 미저장 정책(Zero-Retention Policy)을 통해 데이터 유실 위험을 줄여야 한다.

AWS Middle East Central Zone (UAE) down, apparently struck in war