Rust 기반 SQL 엔진 Rocky, 데이터 웨어하우스 파이프라인을 혁신하다!

by DD
1개월 전
조회수 16

Rocky는 Rust 기반 SQL 엔진으로, 데이터 웨어하우스 파이프라인의 제어 평면(Control Plane) 역할을 수행한다.

브랜치(Branches) 및 리플레이(Replay) 기능을 통해 Git과 유사한 워크플로우를 제공하며, 컴파일 타임에 컬럼 레벨의 데이터 계보(Column Lineage)를 추적한다.

거버넌스(Governance) 기능을 통해 컬럼 분류, 환경별 마스킹 정책, 감사 추적, 규정 준수 롤업 등을 지원한다.

dbt 개발자(dbt developer)는 Rocky의 브랜치 및 예산 관리 기능에 주목하며, dbt-fusion과의 연관성을 언급했다.

컴파일 타임 데이터 계보(Compile-time Lineage)의 중요성

Rocky는 컴파일러를 통해 컬럼 레벨의 데이터 계보(Column Lineage)를 제공하여, 실행 전에 데이터 흐름을 파악할 수 있게 한다. 이는 기존의 사후 분석 방식의 한계를 극복하고, 리팩토링(Refactoring)마스킹 정책(Masking Policies) 적용 시 안전성을 높인다. 특히, 브랜치 간의 데이터 계보 차이(Lineage Diff)를 제공하여 코드 리뷰 과정에서 유용하게 활용될 수 있다.

브랜치 및 리플레이(Branches & Replay) 기능의 Git-Grade 워크플로우

Rocky는 브랜치(Branches) 기능을 통해 파이프라인의 테이블을 논리적으로 복제하고, `rocky replay` 명령어를 통해 실행된 SQL을 재구성한다. 이는 데이터 웨어하우스 환경에서 Git과 유사한 워크플로우를 가능하게 하며, 데이터 변경 사항 관리(Data Change Management)문제 해결(Troubleshooting)에 기여한다. 하지만, 중첩 브랜치(Nested Branches) 및 시스템 간의 병합(Merge) 방식에 대한 추가적인 고려가 필요하다.

거버넌스(Governance) 기능: 데이터 규정 준수 및 보안 강화

Rocky는 컬럼 분류(Column Classification), 환경별 마스킹 정책, 8-필드 감사 추적, 규정 준수 롤업, 역할 그래프 조정, 보존 정책 등 다양한 거버넌스 기능을 제공한다. 이를 통해 데이터 웨어하우스 환경에서 데이터 규정 준수(Data Compliance)보안(Security)을 강화할 수 있다. 특히, `rocky compliance` CI 게이트를 통해 규정 준수 여부를 자동화할 수 있다.

dbt와의 비교 및 dbt-fusion과의 연관성

dbt 개발자는 Rocky의 브랜치(Branching)예산 관리(Budgeting) 기능에 주목하며, dbt 표준에 포함되기를 희망했다. 또한, dbt-fusion과의 연관성을 언급하며, Rocky가 dbt의 OSS(Open Source Software) 크레이트를 활용할 수 있음을 시사했다. 이는 Rocky가 dbt 생태계와 상호 운용성(Interoperability)을 확보하고, 개발 리소스를 효율적으로 활용할 수 있는 가능성을 보여준다.

Show HN: Rocky – Rust SQL engine with branches, replay, column lineage