아카이브 사이트맵

© 2026 Rayon. All rights reserved.

아티클 랭킹 스페이스 채용

AI 에이전트, 장애 대응 시간을 5분으로 단축!

by DD

2026-05-22

1개월 전

조회수 36

현대오토에버는 Amazon Bedrock을 활용하여 장애 대응 시간을 획기적으로 단축하는 AI 에이전트 시스템을 구축함

LangGraph를 사용하여 다중 AI 에이전트 간의 유기적인 협업을 위한 커스텀 오케스트레이션 구현

장애 분석 시간을 수 시간에서 5분으로 단축하고, 숙련도와 무관하게 일관된 품질을 보장

신뢰도 기반 자동 학습 시스템을 통해 지속적인 지식 축적 및 장애 대응 능력 향상

향후 예방적 장애 대응 및 Human-in-the-Loop 방식 도입을 통해 시스템 고도화 계획

LangGraph 기반 에이전트 오케스트레이션

ErrorWatcher는 Amazon Bedrock Agents 대신 LangGraph의 StateGraph를 활용하여 에이전트 간의 상태 전달과 실행 흐름을 Python 코드 수준에서 세밀하게 제어한다.

Monitor, Detective, Solver, Reporter 에이전트 간의 순차적 워크플로우 정의

`AgentState`를 활용한 상태 관리(State Management) 및 각 에이전트의 분석 결과 저장

유연한 커스텀 오케스트레이션(Custom Orchestration)을 통해 복잡한 장애 대응 시나리오 구현

LangGraph는 AI 에이전트(AI Agent)의 동작을 정교하게 제어하고, 각 에이전트의 상호 작용을 관리하는 데 핵심적인 역할을 한다.

메타데이터 필터링을 통한 검색 정확도 향상

Detective Agent는 past-incidents/ 및 architecture/ 폴더, Solver Agent는 runbooks/ 폴더, Reporter Agent는 templates/ 폴더 내에서만 정보를 검색하도록 설정하여 검색 정확도(Search Accuracy)를 높였다.

지정된 폴더 내 검색(Restricted Search)을 통해 불필요한 토큰 소비를 방지

RAG(Retrieval-Augmented Generation) 시스템의 효율성을 극대화

지식 베이스(Knowledge Base)의 관련성 있는 정보만 활용하여 AI 환각(Hallucination)을 줄임

이러한 메타데이터 필터링은 AI 에이전트(AI Agent)가 관련성이 높은 정보를 빠르게 찾도록 돕는다.

신뢰도 기반 자동 학습 시스템

Solver Agent는 근본 원인 도메인에 따라 다른 전문가 페르소나를 적용하여 실행 가능한 해결책을 제시하고, 분석 결과에 신뢰도 점수를 부여한다.

HIGH 신뢰도 보고서 자동 저장(High Confidence Report Auto-Saving)을 통해 지속적인 학습(Continuous Learning) 수행

learned-cases/ 폴더에 저장된 보고서는 향후 유사 장애 분석 시 참고 자료로 활용

도메인별 전문가 프롬프트(Domain-Specific Expert Prompts)를 통해 정확도 향상

이러한 시스템은 AI 에이전트(AI Agent)의 지식과 대응 능력을 지속적으로 향상시킨다.

EKS Pod CrashLoopBackOff 장애 분석 사례

Monitor Agent는 S3에 저장된 로그와 메트릭 정보를 분석하여 장애 증상을 파악하고, Detective Agent는 증상 데이터와 Knowledge Base 검색 결과를 결합하여 근본 원인을 분석한다.

Monitor Agent는 로그와 메트릭을 분석하여 증상 요약 생성

Detective Agent는 근본 원인 분석 및 신뢰도 점수 부여

Solver Agent는 해결책 제시 및 단기/장기 개선책 제안

이 사례는 AI 에이전트(AI Agent)가 어떻게 실제 장애 상황에 대응하는지 보여준다.

향후 발전 방향: Human-in-the-Loop

ErrorWatcher는 AI의 신속성과 인간의 판단력을 결합한 Human-in-the-Loop 방식을 구현할 예정이다.

Teams Webhook 연동을 통해 운영자의 채팅 기반 장애 분석 요청 지원

자동화된 사내 장애 시스템 연계(Automated Integration)를 통해 운영 효율성 극대화

위험도에 따른 자동화 수준 조절(Automation Level Control)을 통해 안전성 확보

이러한 발전 방향은 AI 에이전트(AI Agent)의 활용 범위를 넓히고, 시스템의 안정성을 높이는 데 기여할 것이다.

현대오토에버의 Amazon Bedrock으로 구축한 다중 AI 에이전트: 장애 대응 시간 5분으로 단축하기

관련 추천 글

티오더, 자연어 기반 데이터 조회 에이전트 '티스푼'으로 데이터 접근성 혁신

AI로 실시간 문맥 분석! 라이브 광고의 새로운 기준

클로봇, AI 챗봇으로 건설 현장 해충 방역 자동화!

관련 추천 글

티오더, 자연어 기반 데이터 조회 에이전트 '티스푼'으로 데이터 접근성 혁신

AI로 실시간 문맥 분석! 라이브 광고의 새로운 기준

클로봇, AI 챗봇으로 건설 현장 해충 방역 자동화!

현대오토에버, Amazon Bedrock 기반 AI 에이전트로 빅데이터 클러스터 장애 대응 자동화!

promptfoo로 Bedrock 모델 성능, 객관적으로 평가하기

AI와 프롬프트로 1억 매출! 서울경제신문의 뉴스 서비스 혁신

댓글 0

첫 번째 댓글을 남겨보세요!