입사 첫날, 36시간 점검을 겪은 신입 엔지니어의 생생한 경험담!

신규 입사 후 36시간 점검을 겪으며 데이터베이스 장애에 대응하는 과정을 경험함

CockroachDB 클러스터 문제로 인해 데이터 복구를 위해 Spark를 활용함

Kafka와 Elastic Stack 모니터링을 통해 서비스 재개 후 안정성을 확인

데이터베이스 장애 원인과 복구 과정

데이터베이스 클러스터 문제로 인해 데이터 인식 불가 상황 발생. CockroachDB의 스토리지 레이어에서 SST 파일을 CSV 파일로 변환하는 작업을 진행. 구체적으로 Spark를 활용하여 7TB에 달하는 데이터를 병합하고, 새로운 클러스터로 데이터 이주를 수행했다.

장애 대응 과정에서의 기술적 도전

장애 대응 과정에서 EC2 인스턴스 부족 문제가 발생. 를 최대한 활용하기 위해 의 모든 R계열 인스턴스를 사용. 따라서 에 다른 인스턴스까지 동원되었고, 을 통해 서비스 재개를 준비했다.

입사 첫날, 36시간 점검을 겪은 신입 엔지니어의 생생한 경험담!

데이터베이스 장애 원인과 복구 과정

장애 대응 과정에서의 기술적 도전

LINE Ads, Spark on Kubernetes 도입으로 데이터 파이프라인 성능 226% 향상!

Iceberg와 Flink로 데이터 파이프라인(Data Pipeline) 성능 12배 향상!

Kafka & Spark Streaming으로 데이터 처리 시간 단축!

장애 이후 서비스 안정성 확보

관련 추천 글

LINE Ads, Spark on Kubernetes 도입으로 데이터 파이프라인 성능 226% 향상!

Iceberg와 Flink로 데이터 파이프라인(Data Pipeline) 성능 12배 향상!

Kafka & Spark Streaming으로 데이터 처리 시간 단축!

Pinterest, 자동화된 스키마 변경 관리로 데이터 일관성 확보

Cassandra 광범위 파티션 문제, Netflix의 동적 분할로 해결!

Flink + Paimon: 실시간 광고 선정 시스템 구축

댓글 0

댓글 0

관련 추천 글

LINE Ads, Spark on Kubernetes 도입으로 데이터 파이프라인 성능 226% 향상!

Iceberg와 Flink로 데이터 파이프라인(Data Pipeline) 성능 12배 향상!

Kafka & Spark Streaming으로 데이터 처리 시간 단축!

Pinterest, 자동화된 스키마 변경 관리로 데이터 일관성 확보

Cassandra 광범위 파티션 문제, Netflix의 동적 분할로 해결!

Flink + Paimon: 실시간 광고 선정 시스템 구축

LINE Ads, Spark on Kubernetes 도입으로 데이터 파이프라인 성능 226% 향상!

Iceberg와 Flink로 데이터 파이프라인(Data Pipeline) 성능 12배 향상!

Kafka & Spark Streaming으로 데이터 처리 시간 단축!