뱅크샐러드, 데이터 분석가 주도로 데이터 파이프라인 혁신!
by DD
3년 전
조회수 7
데이터 엔지니어링 팀의 병목 현상을 해결하기 위해 데이터 분석가가 직접 데이터 파이프라인을 구축
Airflow, Spark, S3, Glue를 활용하여 데이터 파이프라인 개발, 배포, 테스트 환경을 구축
데이터 분석가 주도하에 데이터 파이프라인 개발 건수 6배 증가, A/B 테스트 플랫폼 등 다양한 데이터 문제 해결
데이터 분석가 중심의 파이프라인 설계
뱅크샐러드는 데이터 분석가가 데이터 처리 로직에 집중하도록 datapipe 프로젝트를 설계했다. 구체적으로, 테이블 메타 데이터 객체와 PySparkOperator를 활용하여 데이터 엔지니어링 지식 없이 파이프라인을 구축하도록 지원한다. 따라서, 데이터 사용자는 데이터 처리 로직에만 집중할 수 있게 되었다.
안정적인 배포 및 운영 환경 구축
datapipe는 Slack ChatOps 배포 방식을 채택하여 데이터 분석가의 파이프라인 배포를 지원한다. 따라서, 데이터 분석가는 직접 Airflow Web UI를 조작하고, Fusion Auth를 통해 권한을 관리한다. 반면, 파이프라인 실패 시 Slack 알림을 통해 신속한 대응을 가능하게 한다.
데이터 퀄리티 확보를 위한 노력
datapipe는 테스트 서버와 유닛 테스트를 통해 개발 단계에서 데이터 파이프라인의 안정성을 확보한다. 구체적으로, PR 생성 시 테스트 서버를 구축하고, pytest 기반 유닛 테스트를 실행한다. 결과적으로, 데이터 퀄리티를 보장하고, 데이터 문제 발생을 사전에 예방한다.