현대오토에버, Amazon Bedrock 기반 AI 에이전트로 빅데이터 클러스터 장애 대응 자동화!

by DD
1주 전
조회수 56

Amazon Bedrock을 활용하여 빅데이터 클러스터 장애 대응 자동화 에이전트를 구축, MTTA 단축품질 표준화를 목표로 함

LangGraph를 사용하여 장애 대응 워크플로우를 상태 기반 그래프로 설계하고, Amazon OpenSearch로 로그를 구조적으로 탐색

멀티 에이전트 아키텍처를 통해 알림 감지, 근본 원인 분석, 복구 계획 수립 등 5단계 장애 대응 생명 주기 자동화 구현

Human-in-the-Loop 설계를 통해 복구 실행은 운영자 승인 후 수행, 오탐 및 실수 리스크를 제어

향후 유사 인시던트 검색, 인시던트 상관분석, 예방적 개선 등 에이전트 고도화 계획 발표

LangGraph를 활용한 장애 대응 워크플로우 설계

현대오토에버는 LangGraph(LangGraph)를 활용하여 장애 대응 워크플로우를 상태 기반 그래프로 설계했다. 이는 단순한 파이프라인이 아닌, 상황에 따라 분기하고 반복하며 병렬 실행이 필요한 복잡한 워크플로우를 효과적으로 표현하기 위함이다.

분기·Loop·병렬 실행 지원: 복잡한 워크플로우를 유연하게 구현

Reducer 기반 Merge: 병렬 실행 결과 안전하게 합산

PostgresSaver 기반 Checkpointing: 중단 후 재개 가능

특히, PostgresSaver(PostgresSaver)를 활용한 Checkpointing은 장애 발생 시에도 마지막 상태에서 재개할 수 있도록 하여, 운영 환경에서의 내결함성을 확보했다.

Amazon OpenSearch를 활용한 로그 분석

Amazon OpenSearch Service는 장애 대응의 핵심 증거인 로그를 분석하기 위해 사용되었다. 시간 범위, Level, Component 조건으로 원천 로그를 빠르게 검색하고, Aggregation을 통해 어떤 Component를 먼저 살펴야 하는지 즉시 판단할 수 있도록 지원한다.

Query DSL 기반 쿼리: 복잡한 조건과 집계 유연하게 구성

Component별 에러 집계: 장애 원인 파악에 활용

탐색 의도 생성: Bedrock 경량 모델 활용

특히, firewalld의 WARN 로그를 중요 신호로 취급하여, 방화벽 정책 변화로 인한 서비스 단절 문제를 조기에 감지할 수 있도록 했다.

Amazon Bedrock을 활용한 멀티 에이전트 아키텍처

Amazon Bedrock을 활용하여 단일 LLM의 한계를 극복하고, 역할별 멀티 에이전트 아키텍처를 구축했다. 이는 각 에이전트가 특정 역할에 특화되어, 보다 정확하고 효율적인 장애 대응을 가능하게 한다.

경량 모델: 알림 분류, SSH 진단 계획 등에 활용

고성능 모델: RCA, Deep Summarize에 활용

모델 라우팅 전략: 노드별 최적 모델 동적 라우팅

특히, Triage 단계에서 SUFFICIENT 판정 시 고성능 모델 호출을 건너뛰는 전략을 통해 비용을 절감했다.

병렬 RCA와 자체 반증(Falsification) 기반의 신뢰도 확보

단일 LLM의 확증 편향(Confirmation Bias)과 AI 환각(Hallucination) 위험을 완화하기 위해, 병렬 RCA와 자체 반증(Falsification) 방식을 도입했다. 이는 서로 다른 모델이 동일한 증거를 독립적으로 분석하도록 하여, 분석의 신뢰도를 높이는 데 기여한다.

병렬 실행: Amazon Bedrock의 서로 다른 모델을 활용

자체 반증: 각 RCA가 자기 결론을 스스로 공격

교차 검증: Reflector가 두 결과를 비교, 합의, 판정

결과적으로, Reflector(Reflector)는 두 분석의 논증 구조를 교차 검증하여 최종 보고서의 근거를 투명하게 추적할 수 있도록 돕는다.

Human-in-the-Loop 설계를 통한 운영 안정성 확보

자동화의 실질적인 가치를 발휘하기 위해, Human-in-the-Loop 설계를 통해 운영 환경에서의 신뢰성을 확보했다. 이는 자동화의 이점을 가져가면서도, 오탐이나 실수의 리스크를 제어하기 위한 전략이다.

복구 실행 분리: 운영자 승인 후 복구 명령 실행

비파괴적 명령 실행: read-only SSH 명령만 허용

Checkpoint 기반 내결함성: PostgresSaver를 통해 상태 자동 저장

특히, 승인 기반 실행(Approval Wait)을 통해 자동화의 이점을 유지하면서, 운영 리스크를 최소화하는 균형을 맞췄다.

현대오토에버의 Amazon Bedrock으로 구축한 빅데이터 클러스터 장애 대응 자동화 에이전트 구축기