컬리, Dataflow로 준실시간 수요 예측 시스템 구축!
by DD
3년 전
조회수 14
Dataflow를 활용하여 컬리의 준실시간 수요 예측 모델 파이프라인을 구축함
Apache Beam 프로그래밍 모델 기반으로 배치/스트리밍 파이프라인을 구현함
Flex 템플릿을 통해 Dataflow 파이프라인의 CI/CD 자동화를 구축함
Dataflow와 Apache Beam의 관계
Apache Beam은 배치 및 스트리밍 파이프라인을 위한 프로그래밍 모델이다. Dataflow는 Beam을 실행하는 완전 관리형 서비스로, 자동 확장 및 리밸런싱을 지원한다. 따라서 인프라 관리 부담 감소와 자원 효율성 향상을 동시에 달성한다.
Flex 템플릿을 활용한 CI/CD
Flex 템플릿은 Dataflow 파이프라인을 재사용 가능한 아티팩트로 패키징한다. 도커 이미지와 템플릿 스펙 파일을 활용하여 CI/CD 파이프라인을 구축한다. 따라서 배포 자동화를 통해 개발 생산성을 높이고, 버전 관리를 용이하게 한다.
Dataflow 권한 설정의 중요성
Dataflow는 Dataflow service account와 worker service account 두 가지 계정을 사용한다. VPC 통신과 같은 권한 문제는 Dataflow service agent에 적절한 역할을 부여하여 해결한다. 따라서 권한 관리를 통해 서비스 안정성을 확보하고, 문제 해결 시간을 단축한다.