Airflow로 데이터 파이프라인, 이제는 셀프로!
by DD
3년 전
조회수 11
데이터 엔지니어 의존성을 줄이고자 셀프 서빙 데이터 플랫폼 구축
Airflow를 활용하여 데이터 파이프라인을 관리하고, YAML 기반 템플릿 제공
파티셔닝, 데이터 완전성, 멱등성 보장을 통해 데이터 파이프라인의 안정성 확보
셀프 서빙 플랫폼 아키텍처
버즈빌은 S3를 SSOT(Single Source of Truth)로 활용하여 모든 데이터를 저장한다. Athena를 통해 S3에 저장된 데이터를 쿼리하고, Redshift는 adhoc 쿼리 및 대시보드에 사용된다. 따라서 Airflow를 사용하여 데이터 파이프라인을 관리하고, YAML 설정을 통해 파이프라인을 자동 생성한다.
데이터 파이프라인 구축의 핵심 고려 사항
파티셔닝을 통해 쿼리 비용 절감 및 성능을 향상시킨다. 데이터 완전성을 위해 Airflow Sensor를 활용하여 의존성을 관리한다. 멱등성을 보장하기 위해 delete 로직을 추가하여 데이터 파이프라인의 안정성을 확보한다. 따라서, 데이터 품질을 유지한다.
YAML 기반 파이프라인 자동화
YAML 파일 작성을 통해 Airflow Dag를 생성하여, 사용자는 Airflow, Athena, Redshift를 따로 학습할 필요가 없다. DagBuilder와 DagConfig를 활용한 팩토리 패턴을 적용하여 코드 중복을 줄였다. 결과적으로, 유지보수성을 높이고 개발 생산성을 향상시켰다.