Buzzvil, Redshift 데이터 파이프라인 구축 노하우 공개!
by DD
7년 전
조회수 0
1700만 명 이상의 사용자 활동 데이터를 Redshift로 통합하여 분석
AWS Athena를 활용한 S3 데이터 전처리 및 Redshift 로딩 방식 소개
Kinesis Firehose 및 MySQL 비동기 로드를 이용한 데이터 파이프라인 구축
Redshift 아키텍처 및 성능 최적화
Redshift는 Columnar Storage 방식을 사용하여 필요한 데이터만 빠르게 접근한다. 구체적으로 분산 저장 및 수평적 확장성을 통해 대용량 데이터 처리 성능을 향상시킨다. 따라서 복잡한 쿼리 및 데이터 분석에 적합하며, Athena와 연동하여 유연성을 확보한다.
Athena, Firehose, MySQL 로딩 방식 비교
Athena는 S3 데이터를 직접 쿼리하여 서버리스 환경을 제공한다. Firehose는 Fluentd와 연동하여 안정적인 데이터 스트리밍을 지원한다. 반면 MySQL 비동기 로드는 CDC 방식을 통해 데이터 동기화를 수행하며, 데이터 무결성을 유지한다. 따라서 각 방식은 데이터 특성에 따라 선택된다.
데이터 파이프라인 구축 시 고려사항
데이터 파이프라인 구축 시 데이터 볼륨과 처리 속도를 고려해야 한다. 구체적으로 Firehose를 사용하면 빠른 데이터 전송이 가능하지만, 스키마 변경에 유연하지 않다. 따라서 MySQL의 CDC 방식을 통해 데이터 일관성을 확보하고, Athena를 활용하여 비용 효율성을 높인다.