ScyllaDB Super Disk 도입으로 노드 복구 시간 20배 단축!

by DD
1년 전
조회수 4

ScyllaDB 운영 중 노드 장애복구 시간이 오래 걸리는 문제 발생

Super Disk (Write-mostly RAID)를 도입하여 복구 시간 20배 단축 및 데이터 안정성 확보

Windmill을 활용, Kubernetes 환경에서 Super Disk 관련 작업 자동화

ScyllaDB Super Disk 아키텍처 심층 분석

ScyllaDB는 자체 Embedded Cache를 사용하며, Local NVMe SSD의 빠른 성능이 중요함. Super Disk는 Local SSD와 Persistent Disk를 RAID1으로 묶고, Write-mostly 설정을 통해 쓰기는 Persistent Disk, 읽기는 Local SSD에서 수행. 따라서 장애 복구 시간 단축데이터 안정성을 동시에 확보한다.

Super Disk vs Local SSD: 성능 및 비용 비교

Super Disk는 Local SSD와 유사한 Read/Write 성능을 유지하면서, EBS를 활용하여 데이터 유실 위험을 줄임. RAID 재구성을 통해 노드 복구 시간을 획기적으로 단축하며, Data Transfer 비용 절감 효과도 얻음. Local SSD만 사용하는 방식 대비 장애 대응 유연성을 높였다.

Windmill을 활용한 ScyllaDB 자동화 전략

Windmill을 사용하여 ScyllaDB Super Disk 관련 작업을 자동화. Kubernetes API, AWS boto3 API, SSH client 등을 통합하여 Multi-step 작업을 관리. QA/Stage 환경에서 충분한 테스트를 거쳐 Production 환경에 적용, 노드 교체 시간 단축운영 효율성을 극대화했다.

Building Resilient, High Performance ScyllaDB Clusters with Super Disk