뱅크샐러드, Data Discovery Platform으로 데이터 접근성 UP!

by DD
4년 전
조회수 10

Data Discovery Platform 구축을 통해 뱅크샐러드 내 데이터 접근성 및 활용성 향상

Datahub 오픈소스를 기반으로, 데이터 검색, 통계, lineage 기능 제공

Airflow DAG를 활용한 메타데이터 수집 및 관리 자동화, 데이터 엔지니어링팀의 효율성 증대

Datahub 아키텍처 및 Ingestion 과정

Datahub는 메타데이터 관리를 위한 중앙 집중형 플랫폼으로, 다양한 데이터 소스에서 메타 정보를 수집한다. 구체적으로 Airflow DAG를 사용하여 MySQLAWS Glue와 같은 소스에서 데이터를 추출하고, Datahub REST API를 통해 데이터를 Ingest한다. 따라서 데이터 카탈로그 구축데이터 검색 기능을 제공한다.

Datahub vs. 기존 데이터 분석 환경

기존에는 데이터 분석을 위해 Slack 채널을 통해 정보를 얻는 방식이었다. 반면 Datahub는 테이블 명세, 통계 정보, 샘플 데이터를 제공하여 데이터 분석 시간을 단축한다. 결과적으로 데이터 분석 효율성을 높이고, 데이터 접근성을 개선하여 전사적인 데이터 활용을 촉진한다.

Data Discovery Platform 구축의 핵심 가치

Data Discovery Platform은 데이터 엔지니어링팀분석가 간의 정보 격차를 해소한다. 구체적으로 데이터 lineage 기능을 통해 데이터 흐름을 시각화하고, SQL Profile을 통해 테이블 통계를 제공한다. 따라서 데이터 기반 의사 결정을 지원하고, 데이터 거버넌스를 강화한다.

뱅크샐러드 Data Discovery Platform의 시작