LY Corporation, 자체 시계열 DB로 관측 가능성 플랫폼 혁신
LY Corporation은 쿠버네티스(Kubernetes) 기반 인프라 환경에서 발생하는 지표 데이터(Metrics Data) 폭증에 대응하기 위해 자체 시계열 데이터베이스를 개발
초기 MySQL, OpenTSDB의 한계를 극복하고 IMDB(In-Memory Database)와 Cassandra를 결합한 다중 계층 저장소 아키텍처를 구축하여 성능과 비용 효율성을 확보
쿠버네티스(Kubernetes) 환경으로의 전환에 따라 S3 호환 저장소(S3 Compatible Storage) 도입 및 쓰기/읽기 분리 아키텍처를 통해 확장성 문제를 해결
AI 기술을 활용하여 AIOps 및 예측 기능(Forecasting Feature)을 강화하고, LLM(Large Language Model) 연동을 통해 지능형 플랫폼으로 진화할 계획
시계열 데이터베이스(TSDB)의 중요성
본문에서 LY Corporation은 수조 건(Trillions) 규모의 지표 데이터(Metrics Data)를 효율적으로 처리하기 위해 자체 시계열 데이터베이스(TSDB)를 구축했다. IT 시스템 모니터링에서 지표는 시스템 상태를 나타내는 숫자에 타임스탬프(Timestamp)를 부여한 시계열 데이터이며, 서비스 규모가 커질수록 지표 데이터의 양은 기하급수적으로 증가한다. 범용 데이터베이스(Database)로는 이러한 대용량 데이터를 감당하기 어려우므로, 시계열 데이터베이스(TSDB)는 비용 효율적인 저장(Cost-Effective Storage)과 최소 지연 시간(Minimum Latency)의 조회를 가능하게 하여 서비스 안정성에 필수적이다.
자체 시계열 데이터베이스(TSDB) 개발 과정
LY Corporation은 초기 MySQL을 사용했으나, MSA(Microservice Architecture) 전환에 따른 데이터 증가로 인해 운영 비용 증가, 저장 용량 부족, 쿼리 지연 시간 증가 등의 문제에 직면했다. 이후 OpenTSDB를 도입했지만, 태그 활용의 제한, 문자 제약, 쿼리 비효율성 등의 이유로 자체 엔진 개발을 결정했다. 2018년부터 시작된 자체 시계열 데이터베이스 개발은 유연성, 확장성, 성능, 가용성을 목표로 했으며, 2019년 오픈소스의 장점을 흡수하고 단점을 보완한 자체 시계열 데이터베이스를 완성했다. 특히 데이터 접근 패턴(Data Access Pattern)에 기반한 아키텍처 최적화를 통해 성능을 향상시켰다.
다중 계층 저장소 아키텍처(Multi-Tier Storage Architecture)
LY Corporation은 Meta의 Gorilla 논문을 참고하여, 데이터 조회 패턴의 85%가 최근 26시간 내에 집중된다는 점에 착안, 성능과 비용의 균형을 맞춘 다중 계층 저장소 전략을 수립했다. 자주 접근되는 지표는 IMDB(In-Memory Database)로 처리하여 지연 시간을 최소화하고, 그렇지 않은 데이터는 디스크 기반의 Apache Cassandra에 저장하여 저장 비용을 최적화했다. 이러한 아키텍처는 고해상도 지표(High-Resolution Metrics)를 지연 없이 처리하면서도, 대용량 데이터의 효율적인 관리를 가능하게 했다.
쿠버네티스(Kubernetes) 환경에서의 아키텍처 개선
쿠버네티스(Kubernetes) 환경으로의 전환은 파드(Pod)의 빈번한 생성/삭제와 동적 볼륨 할당으로 인해 관측 가능성 플랫폼에 더 큰 부하를 가했다. LY Corporation은 이러한 변화에 대응하기 위해 S3 호환 저장소(S3 Compatible Storage)를 도입하고, 쓰기/읽기 역할을 분리한 계층형 구조를 구축했다. 쓰기 과정은 덤퍼(Dumper)가 IMDB의 슬롯(Slot) 단위 데이터를 서브 블록(Sub-Block)으로 변환하고, 블록 덤퍼(Block Dumper)가 이를 취합하여 S3에 적재하는 방식으로 진행된다. 읽기 과정은 Storage Gateway가 S3에서 블록 데이터를 가져와 디스크에 캐싱(Caching)하는 구조로, S3의 확장성을 활용하면서도 읽기 성능을 극대화했다.
AI 기반 지능형 플랫폼으로의 진화
LY Corporation은 AI 시대를 맞아 데이터의 가치를 '기록'에서 '예측'과 '지능'으로 확장하고자 한다. 이를 위해 사내 시계열 데이터를 통합하고, AI 기술을 활용하여 AIOps 및 예측 기능을 고도화할 계획이다. 또한, LLM(Large Language Model)을 연동하여 사용자가 자연어로 시스템 상태를 질의할 수 있는 환경을 구축할 예정이다. 이러한 노력은 데이터의 중앙 집중화(Centralized Platform), AIOps 및 예측(Forecasting) 고도화, MCP(Model Context Protocol) 연동을 통해 사용자에게 더 나은 가치를 제공하는 것을 목표로 한다.