AI 에이전트, 장애 대응 시간을 5분으로 단축!
현대오토에버는 Amazon Bedrock을 활용하여 장애 대응 시간을 획기적으로 단축하는 AI 에이전트 시스템을 구축함
LangGraph를 사용하여 다중 AI 에이전트 간의 유기적인 협업을 위한 커스텀 오케스트레이션 구현
장애 분석 시간을 수 시간에서 5분으로 단축하고, 숙련도와 무관하게 일관된 품질을 보장
신뢰도 기반 자동 학습 시스템을 통해 지속적인 지식 축적 및 장애 대응 능력 향상
향후 예방적 장애 대응 및 Human-in-the-Loop 방식 도입을 통해 시스템 고도화 계획
LangGraph 기반 에이전트 오케스트레이션
ErrorWatcher는 Amazon Bedrock Agents 대신 LangGraph의 StateGraph를 활용하여 에이전트 간의 상태 전달과 실행 흐름을 Python 코드 수준에서 세밀하게 제어한다.
Monitor, Detective, Solver, Reporter 에이전트 간의 순차적 워크플로우 정의
`AgentState`를 활용한 상태 관리(State Management) 및 각 에이전트의 분석 결과 저장
유연한 커스텀 오케스트레이션(Custom Orchestration)을 통해 복잡한 장애 대응 시나리오 구현
LangGraph는 AI 에이전트(AI Agent)의 동작을 정교하게 제어하고, 각 에이전트의 상호 작용을 관리하는 데 핵심적인 역할을 한다.
메타데이터 필터링을 통한 검색 정확도 향상
Detective Agent는 past-incidents/ 및 architecture/ 폴더, Solver Agent는 runbooks/ 폴더, Reporter Agent는 templates/ 폴더 내에서만 정보를 검색하도록 설정하여 검색 정확도(Search Accuracy)를 높였다.
지정된 폴더 내 검색(Restricted Search)을 통해 불필요한 토큰 소비를 방지
RAG(Retrieval-Augmented Generation) 시스템의 효율성을 극대화
지식 베이스(Knowledge Base)의 관련성 있는 정보만 활용하여 AI 환각(Hallucination)을 줄임
이러한 메타데이터 필터링은 AI 에이전트(AI Agent)가 관련성이 높은 정보를 빠르게 찾도록 돕는다.
신뢰도 기반 자동 학습 시스템
Solver Agent는 근본 원인 도메인에 따라 다른 전문가 페르소나를 적용하여 실행 가능한 해결책을 제시하고, 분석 결과에 신뢰도 점수를 부여한다.
HIGH 신뢰도 보고서 자동 저장(High Confidence Report Auto-Saving)을 통해 지속적인 학습(Continuous Learning) 수행
learned-cases/ 폴더에 저장된 보고서는 향후 유사 장애 분석 시 참고 자료로 활용
도메인별 전문가 프롬프트(Domain-Specific Expert Prompts)를 통해 정확도 향상
이러한 시스템은 AI 에이전트(AI Agent)의 지식과 대응 능력을 지속적으로 향상시킨다.
EKS Pod CrashLoopBackOff 장애 분석 사례
Monitor Agent는 S3에 저장된 로그와 메트릭 정보를 분석하여 장애 증상을 파악하고, Detective Agent는 증상 데이터와 Knowledge Base 검색 결과를 결합하여 근본 원인을 분석한다.
Monitor Agent는 로그와 메트릭을 분석하여 증상 요약 생성
Detective Agent는 근본 원인 분석 및 신뢰도 점수 부여
Solver Agent는 해결책 제시 및 단기/장기 개선책 제안
이 사례는 AI 에이전트(AI Agent)가 어떻게 실제 장애 상황에 대응하는지 보여준다.
향후 발전 방향: Human-in-the-Loop
ErrorWatcher는 AI의 신속성과 인간의 판단력을 결합한 Human-in-the-Loop 방식을 구현할 예정이다.
Teams Webhook 연동을 통해 운영자의 채팅 기반 장애 분석 요청 지원
자동화된 사내 장애 시스템 연계(Automated Integration)를 통해 운영 효율성 극대화
위험도에 따른 자동화 수준 조절(Automation Level Control)을 통해 안전성 확보
이러한 발전 방향은 AI 에이전트(AI Agent)의 활용 범위를 넓히고, 시스템의 안정성을 높이는 데 기여할 것이다.