데브시스터즈, 준실시간 지표로 게임 런칭 성공!

by DD
1년 전
조회수 20

데브시스터즈는 게임 런칭 시 데이터 기반 의사결정을 위해 준실시간 지표 서비스 도입

Kafka, Spark Streaming, Delta Lake 기반의 스트리밍 ETL 파이프라인 구축

Kibana 대시보드를 통해 30% 접속률을 기록하며, 매출 100억 달성에 기여

준실시간 지표 파이프라인 아키텍처

Kafka를 통해 로그를 수집하고, Spark Streaming으로 전처리 및 집계를 수행한다. 구체적으로, 하트비트 로그를 분리하여 비용을 절감하고, 스트림-스트림 JOIN을 통해 매출 데이터를 집계한다. 따라서, Delta Lake에 저장된 데이터를 Databricks SQL로 분석한다.

KSQL, DLT, Spark Streaming 비교 분석

KSQL은 파티션 편향 문제로 인해 지표 오차가 발생하여 제외되었다. DLT는 state 연산 부하로 인해 파이프라인 분리 및 비용 증가 문제가 있었다. 반면, Spark Streaming은 단일 클러스터 공유를 통해 비용 효율성을 확보하고, SQL 개발자 친화적인 환경을 제공하여 최종 선택되었다.

Kibana 대시보드 활용 및 개선점

기존 ELK 스택에서는 Elasticsearch 부하 문제로 인해 지표 집계에 어려움이 있었다. 하지만, Spark Streaming 기반의 새로운 플랫폼에서는 집계된 데이터를 Kibana에서 조회하여 부하 문제를 해결했다. 결과적으로, 정확한 지표 집계Kibana 대시보드의 장점을 모두 활용할 수 있게 되었다.

지금 매출 얼마인가요?