당근, MongoDB CDC 구축으로 데이터 파이프라인 혁신!
by DD
5개월 전
조회수 49
MongoDB CDC 구축을 통해 데이터 적재 SLO를 달성하고, DB 부하를 감소시킴
Flink CDC를 선택하여 Change Stream을 활용, 안정적인 데이터 파이프라인 구축
스키마 관리 및 정합성 검증을 통해 데이터 신뢰성을 확보하고 운영 안정성을 높임
Flink CDC를 활용한 데이터 파이프라인 설계
Flink CDC는 MongoDB Change Stream을 활용하여 데이터 변경을 실시간으로 감지한다. 구체적으로, Oplog을 구독하여 INSERT, UPDATE, DELETE 이벤트를 캡처하고, BigQuery로 전송한다. 따라서, 데이터 일관성을 유지하면서, 2시간 SLO를 달성할 수 있었다.
스키마 관리 및 정합성 검증 방법
MongoDB의 유연한 스키마 변화에 대응하기 위해, Two-Stage Table Architecture를 도입했다. 구체적으로, JSON 원본 테이블과 최종 테이블을 분리하여, 스키마 변경 시 Full Dump 없이 최종 테이블을 재생성한다. 따라서, 스키마 변경 반영 시간을 획기적으로 단축했다.
CDC 시스템 운영 노하우
CDC 시스템의 안정적인 운영을 위해, 모니터링 대시보드를 구축하고, Flink Job 상태, 데이터 처리량, BigQuery 적재 성공률 등을 감시한다. 따라서, Backpressure 발생 시 알림을 받고, 장애 복구를 위한 자동화된 절차를 마련하여, 서비스 안정성을 확보했다.