LY Corporation, 두 개의 클라우드 통합: 차세대 플랫폼 Flava 아키텍처 공개
LY Corporation은 기존 'Verda'와 'YNW'를 통합하여 차세대 클라우드 플랫폼 Flava를 구축, 대규모 트래픽과 데이터 처리 능력을 향상시킴
장애를 전제로 한 설계를 통해 무상태성(statelessness) 추구, 애플리케이션 주도 가용성 확보, 신속한 복구 체계를 구축
IaC(Infrastructure as Code) 기반의 완전 자동화와 Prometheus/Grafana를 활용한 관찰 가능성(Observability) 확보를 통해 안정적인 운영 환경을 구축
OpenStack, Envoy, Linux kernel 등 OSS(Open Source Software)를 적극 활용하며, 자체 개발과 업스트림 기여를 병행
Flava는 전용 환경 폐지 및 단일 리소스 풀 전환, VPC 기본화 등을 통해 리소스 효율성 및 보안 강화를 달성
장애를 전제로 한 설계 철학
LY Corporation은 장애를 항상 염두에 두고 시스템을 설계하며, 서비스 개발 속도를 최우선으로 고려한다. 이를 위해 인프라 단독으로 과도한 가용성을 보장하기보다는, 애플리케이션 측면의 구성과 조합을 통해 신뢰성을 확보한다.
무상태성(Statelessness) 추구: VM의 루트 디스크에 저장하는 데이터를 일시적인 것으로 정의하고, 영속적인 데이터는 외부 스토리지로 분리하여 인스턴스 장애 시 서비스에 미치는 영향을 최소화한다.
애플리케이션 주도 가용성: 인프라 단독 가용성 보장 대신 애플리케이션 측면에서 신뢰성을 확보하고, 인프라 복잡성을 제거한다.
신속한 복구: 장애 발생 시 원인 규명보다 서비스 지속을 우선하며, IaC(Infrastructure as Code)를 활용해 환경을 즉시 재구축한다. 이러한 설계 철학은 개발자의 이해와 협력을 필요로 한다.
IaC 기반의 자동화된 운영
LY Corporation은 대규모 클라우드 운영을 위해 IaC(Infrastructure as Code)를 통한 완전 자동화를 구축했다. OS 설정, 패키지 설치, 네트워크 투입 등 모든 구성 관리를 코드화하여 CI/CD 파이프라인을 통해 자동 적용한다.
AZ(Availability Zone) 단위 배포: 장애 발생 시 영향 범위를 국소화하는 안전 장치를 마련
모니터링 시스템 구축: Prometheus/Grafana를 활용하여 클라우드 전체의 건전성을 상시 모니터링하고, 이상 징후 감지 시 커널 레벨의 트레이스나 패킷 캡처를 통해 원인을 특정한다.
자동화된 하드웨어 관리: 하드웨어 고장 감지부터 교체, 재투입까지 대부분 자동화하여 운영 효율성을 극대화한다. LLM(Large Language Model)을 활용한 자동화도 계획 중이다.
OSS(Open Source Software) 활용 및 기여
LY Corporation은 OpenStack, Envoy, Linux kernel 등 OSS(Open Source Software)를 적극 활용하며, OSS 커뮤니티와 함께 성장하는 전략을 취하고 있다. 단순히 OSS를 사용하는 것을 넘어, 지속적인 기여를 통해 기술 발전에 기여한다.
업스트림 기여: OpenStack, Ceph 등에 수정 패치를 제공하고, Flava의 VPC(Virtual Private Cloud)에 필요한 SRv6 BGP 관련 기능을 FRRouting이나 Linux Kernel에 커밋
자체 개발: OSS만으로는 해결할 수 없는 사내 고유 과제는 풀 스크래치로 자체 개발하며, 독자적인 패치로 인한 유지 보수 비용을 절감
오브젝트 스토리지 Dragon 개발: HDD 용량 효율과 운영성을 최우선으로 설계한 자체 오브젝트 스토리지 개발
Flava의 아키텍처 개선 사항
LY Corporation은 차세대 클라우드 플랫폼 Flava를 통해 기존 클라우드의 문제점을 해결하고, 아키텍처를 근본적으로 개선했다.
전용 환경 폐지 및 단일 리소스 풀 전환: 용량 관리의 복잡성을 해소하고, 리소스 효율 및 민첩성을 향상시킴
업스트림 OpenStack 추종 아키텍처 채택: 독자적인 커스터마이징을 최소화하고, 업그레이드 장벽을 제거하여 정기적인 업데이트 사이클을 실현
VPC(Virtual Private Cloud) 기본화: 멀티 테넌트 환경에서 안전한 보안 모델을 제공하고, 보안 환경 구축 시간을 단축
비용 최적화 기능 탑재: 사용자가 자율적으로 비용을 최적화할 수 있도록 리소스 유효 기간 설정, 버킷 클래스 변경 기능 제공
Flava의 과제와 도전
Flava는 아직 최소한의 제품만 출시된 단계로, 향후 기능 확장과 기존 기반에서 마이그레이션하는 것이 주요 과제이다.
기능 확장: 신속한 기능 추가 및 버그 해결을 통해 기반을 성숙시킬 필요가 있음
마이그레이션: 신규 기반과 구 기반의 중복 투자 기간을 단축하고, 전체 비용을 최적화하는 것이 중요
VPC 데이터 플레인 쇄신: XDP(eBPF)를 활용하여 VPC 데이터 플레인 성능을 개선
LY Corporation은 이러한 과제를 해결하기 위해 지속적인 기술 개발과 혁신을 추진하고 있다.