컬리, BigQuery 도입으로 데이터 파이프라인 혁신!

by DD
3년 전
조회수 12

BigQuery 도입을 통해 데이터 레이크하우스를 구축하고, 장기간 데이터 보관이 가능해짐

기존 UPSERT 방식 대신 Merge 문을 사용하여 데이터 적재 속도 대폭 개선

쿼리 응답 시간 감소비용 절감 효과를 얻었으며, 슬롯 예약으로 비용 효율화 달성

정형/비정형 데이터 파이프라인 설계

컬리는 RDBMS와 NoSQL 데이터를 BigQuery로 통합하기 위해 정형/비정형 파이프라인을 구축했다. AWS DMS를 통해 CDC 로그를 Kafka로 전송하고, BigQuery Streaming API를 사용하여 데이터를 적재한다. 따라서, Merge Procedure를 통해 최종 테이블을 구축하여 데이터 일관성을 유지한다.

UPSERT vs Merge: 데이터 적재 방식 비교

기존 Data Warehouse는 UPSERT 방식으로 데이터 적재 시 속도 저하 및 Delete 작업 미반영 문제를 겪었다. BigQuery Merge 문을 사용함으로써, 데이터 적재 속도를 획기적으로 개선하고, 데이터 정합성을 확보했다. 결과적으로, 데이터 연동 지연 시간이 대폭 감소했다.

쿼리 성능 최적화 및 비용 절감 전략

컬리는 데이터 파이프라인데이터 조회 프로젝트를 분리하여 쿼리 응답 시간을 개선했다. 또한, 파티션 사용을 통해 스캔 용량을 줄이고, 슬롯 예약 및 스캔 용량 제한을 통해 비용을 절감했다. 따라서, 데이터 분석 효율성비용 효율성을 동시에 달성했다.

컬리의 BigQuery 도입기 - 2부