컬리, Dataflow로 준실시간 수요 예측 시스템 구축!

by DD
3년 전
조회수 14

Dataflow를 활용하여 컬리의 준실시간 수요 예측 모델 파이프라인을 구축함

Apache Beam 프로그래밍 모델 기반으로 배치/스트리밍 파이프라인을 구현함

Flex 템플릿을 통해 Dataflow 파이프라인의 CI/CD 자동화를 구축함

Dataflow와 Apache Beam의 관계

Apache Beam은 배치 및 스트리밍 파이프라인을 위한 프로그래밍 모델이다. Dataflow는 Beam을 실행하는 완전 관리형 서비스로, 자동 확장리밸런싱을 지원한다. 따라서 인프라 관리 부담 감소자원 효율성 향상을 동시에 달성한다.

Flex 템플릿을 활용한 CI/CD

Flex 템플릿은 Dataflow 파이프라인을 재사용 가능한 아티팩트로 패키징한다. 도커 이미지와 템플릿 스펙 파일을 활용하여 CI/CD 파이프라인을 구축한다. 따라서 배포 자동화를 통해 개발 생산성을 높이고, 버전 관리를 용이하게 한다.

Dataflow 권한 설정의 중요성

Dataflow는 Dataflow service accountworker service account 두 가지 계정을 사용한다. VPC 통신과 같은 권한 문제는 Dataflow service agent에 적절한 역할을 부여하여 해결한다. 따라서 권한 관리를 통해 서비스 안정성을 확보하고, 문제 해결 시간을 단축한다.

Dataflow로 컬리의 준실시간 수요 예측모델 파이프라인 구축하기 - 1편