컬리, BigQuery 도입으로 데이터 파이프라인 혁신!
by DD
3년 전
조회수 12
BigQuery 도입을 통해 데이터 레이크하우스를 구축하고, 장기간 데이터 보관이 가능해짐
기존 UPSERT 방식 대신 Merge 문을 사용하여 데이터 적재 속도 대폭 개선
쿼리 응답 시간 감소 및 비용 절감 효과를 얻었으며, 슬롯 예약으로 비용 효율화 달성
정형/비정형 데이터 파이프라인 설계
컬리는 RDBMS와 NoSQL 데이터를 BigQuery로 통합하기 위해 정형/비정형 파이프라인을 구축했다. AWS DMS를 통해 CDC 로그를 Kafka로 전송하고, BigQuery Streaming API를 사용하여 데이터를 적재한다. 따라서, Merge Procedure를 통해 최종 테이블을 구축하여 데이터 일관성을 유지한다.
UPSERT vs Merge: 데이터 적재 방식 비교
기존 Data Warehouse는 UPSERT 방식으로 데이터 적재 시 속도 저하 및 Delete 작업 미반영 문제를 겪었다. BigQuery Merge 문을 사용함으로써, 데이터 적재 속도를 획기적으로 개선하고, 데이터 정합성을 확보했다. 결과적으로, 데이터 연동 지연 시간이 대폭 감소했다.
쿼리 성능 최적화 및 비용 절감 전략
컬리는 데이터 파이프라인과 데이터 조회 프로젝트를 분리하여 쿼리 응답 시간을 개선했다. 또한, 파티션 사용을 통해 스캔 용량을 줄이고, 슬롯 예약 및 스캔 용량 제한을 통해 비용을 절감했다. 따라서, 데이터 분석 효율성과 비용 효율성을 동시에 달성했다.