Netflix, 실시간 분산 그래프 구축 비법 공개!
by DD
6개월 전
조회수 21
Netflix는 다양한 서비스 확장에 따라 실시간 분산 그래프(RDG)를 구축함
Kafka를 통해 데이터 수집, Apache Flink를 활용하여 실시간 데이터 처리
단일 Flink Job의 한계를 극복하기 위해 Kafka Topic 1:1 Flink Job 매핑 전략 채택
실시간 데이터 파이프라인 아키텍처
Kafka는 API Gateway를 통해 유입되는 데이터를 처리하는 핵심 컴포넌트이다. Avro 형식으로 인코딩된 데이터를 Flink Job이 소비하며, Iceberg를 활용하여 데이터 백필을 지원한다. 따라서 데이터 스트림 처리를 위한 안정적인 기반을 마련한다.
Flink Job 최적화 전략
초기에는 단일 Flink Job으로 모든 데이터를 처리하려 했으나, 병목 현상 발생 및 튜닝의 어려움이 있었다. Kafka Topic과 Flink Job을 1:1 매핑하여 각 Job별로 독립적인 자원 관리를 가능하게 했다. 결과적으로 운영 효율성을 높였다.
RDG 구축의 기술적 과제
실시간 데이터 처리를 위해 스트림 처리 아키텍처를 선택했다. Batch Processing 방식의 한계를 극복하고, Kafka를 통해 데이터 유입량을 감당한다. 따라서 데이터 일관성을 유지하면서 확장성을 확보하는 것이 핵심 과제이다.
댓글 0
첫 번째 댓글을 남겨보세요!