컬리, BigQuery 도입으로 데이터 파이프라인 혁신!
by DD
3년 전
조회수 6
기존 데이터 파이프라인의 긴 지연시간, 스토리지 부족 등 문제점 분석
BigQuery Streaming API를 활용하여 데이터 적재 속도 향상 및 파이프라인 단순화
파티션 및 프로젝트 분리를 통해 비용 관리 효율성을 확보
기존 파이프라인의 문제점 분석
기존 데이터 파이프라인은 Oracle, Aurora DB, DocumentDB에서 CDC 로그를 수집하여 Kafka Topic으로 전송했다. Amazon S3에 저장 후 Airflow를 통해 Data Warehouse에 적재하는 복잡한 구조였다. 따라서 지연 시간 증가, 스토리지 부족, 쿼리 응답 시간 저하 등의 문제가 발생했다.
BigQuery 도입의 핵심 전략
BigQuery 도입을 통해 지연 시간 단축을 위해 BigQuery Streaming API를 활용했다. 파티션을 사용하여 데이터 보관 주기를 관리하고, 프로젝트 분리를 통해 쿼리 유형에 따른 비용 효율성을 확보했다. 데이터 스캔 범위 제한을 통해 비용을 절감했다.
BigQuery 비용 관리 노하우
BigQuery 사용 시 비용 관리는 매우 중요하다. 파티션을 활용하여 데이터 보관 주기를 설정하고, 쿼리 시 파티션 범위를 명시하여 스캔 비용을 절감한다. 프로젝트 분리를 통해 쿼리 유형에 맞는 슬롯을 할당하여 비용 최적화를 달성한다.