당근마켓, DataHub와 DataWiki로 데이터 탐색 혁신!
by DD
10개월 전
조회수 4
DataHub를 도입하여 메타데이터 관리 플랫폼을 구축하고, Kafka를 활용한 실시간 데이터 수집 시스템을 구현함
DataWiki를 통해 데이터 맥락과 활용 예시를 제공하여 데이터 탐색의 어려움을 해결함
BigQuery를 SSOT로 활용, Text-to-SQL LLM 챗봇 구축 등 데이터 활용성을 확장함
DataHub 아키텍처 심층 분석
DataHub는 Kafka를 통해 메타데이터를 수집하고, MySQL에 저장하며, Elasticsearch를 활용하여 검색 기능을 제공한다. 구체적으로 Helm 차트를 통해 App Tier 리소스를 배포하고, AWS의 RDS, OpenSearch, MSK를 활용하여 Persistence Tier를 구축했다. 따라서 안정적인 메타데이터 관리 환경을 구축했다.
DataWiki와 DataHub의 시너지 효과
DataWiki는 DataHub의 부족한 부분을 보완하여 데이터 탐색 경험을 향상시킨다. SSOT로 BigQuery를 활용하여 메타데이터를 통합 관리하고, Airflow를 통해 DataWiki 정보를 DataHub에 동기화한다. 반면, DataHub는 메타데이터의 뼈대를 제공하고, DataWiki는 살을 채우는 역할을 수행한다.
데이터 디스커버리 시스템 구축의 핵심
데이터 디스커버리 시스템 구축의 핵심은 데이터 신선도와 데이터 맥락 확보에 있다. Airflow를 활용한 자동화된 메타데이터 업데이트 파이프라인 구축과 n8n을 이용한 신선도 모니터링 시스템을 통해 데이터 신뢰성을 확보했다. 따라서, 데이터 민주화를 통해 구성원들의 적극적인 참여를 유도했다.
댓글 0
첫 번째 댓글을 남겨보세요!