원티드랩 데이터 마트 구축기: 데이터 분석을 위한 효율적인 데이터 파이프라인 구축!

by DD
2년 전
조회수 5

데이터 마트 구축을 위해 ERD를 활용하여 테이블 간 관계를 시각화하고, 확장성, 독립성, 품질을 고려하여 설계함

Airflow DAG를 활용하여 데이터 파이프라인을 구축하고, Python 코드로 쿼리를 관리하여 유연성을 확보함

컬럼명 규칙(taxonomy)을 정의하여 데이터의 일관성을 유지하고, 데이터 분석 및 활용을 위한 기반을 마련함

데이터 마트 설계의 핵심: 확장성, 독립성, 품질

데이터 마트 설계 시 확장성을 위해 컬럼과 타입을 유연하게 변경할 수 있도록 설계했다. 독립성을 위해 테이블 간 중복 컬럼을 최소화하고, JSON 타입이나 Python 코드를 활용하여 컬럼을 추가했다. 따라서, 데이터 품질을 보장하기 위해 컬럼 사용 기준을 정하고, 쿼리 사용 현황을 지속적으로 확인했다.

Airflow DAG를 활용한 데이터 파이프라인 구축

기존 쿼리 기반 마트 구조의 쿼리 비용실행 소요 시간 문제를 해결하기 위해 Airflow DAG를 도입했다. Airflow를 통해 스케줄러를 활용하여 데이터 파이프라인을 구축하고, Python 코드를 사용하여 쿼리를 관리함으로써 유연성을 확보했다. 결과적으로, 데이터 엔지니어링 작업 환경을 개선했다.

컬럼명 규칙(Taxonomy) 정의 및 적용

데이터 마트의 유지보수데이터 이해도를 높이기 위해 컬럼명 규칙을 정의했다. Snake_case를 기본으로, PK, FK, timestamp, boolean 값에 대한 규칙을 정립했다. 집계 함수 사용 시 접두사를 활용하여 데이터의 일관성을 유지하고, 분석가구성원들과의 소통을 원활하게 했다.

원티드랩 데이터 마트 — 설립기