GS리테일, AI 기반 AIOps로 인시던트 분석 시간 93% 단축!

by DD
1개월 전
조회수 16

GS리테일은 18,000여 개 매장의 안정적 운영을 위해 AIOps Agent 시스템을 구축

Amazon BedrockModel Context Protocol(MCP)을 활용하여 7개 이상의 도구를 연동, 인시던트 분석 자동화

인시던트 분석 시간을 기존 30분에서 약 2분으로 93% 단축하는 성과를 달성

멀티 조직 모니터링, 도구 분산, 지식 단절 등 운영 복잡성 문제 해결

향후 자동 조치, FinOps Agent 연동, 멀티 에이전트 협업 등 자율 운영 고도화 계획

AIOps Agent의 핵심: 자율적 사고 엔진

GS리테일의 AIOps Agent 시스템은 단순한 자동화 도구를 넘어, SRE 전문가의 사고방식(SRE's Thinking)을 모방하는 데 초점을 맞췄다. 핵심은 AI가 스스로 도구를 선택하고, 결과를 분석하며, 다음 단계를 결정하는 에이전트 루프(Agent Loop) 구조이다.

Amazon Bedrock Converse API를 활용하여 에이전트 루프를 구현, 외부 도구 호출 및 결과 해석을 가능하게 함

동적 도구 로딩(Dynamic Tooling)을 통해 인시던트 유형에 따라 필요한 도구 세트만 선택, 분석 정확도 향상

시스템 프롬프트(System Prompt)를 통해 SRE의 핵심 행동 원칙(자율적 탐색, 직접 확인, 증거 기반 분석, 근본 원인 추적)을 AI에 주입

비용 효율성과 성능의 균형: 하이브리드 모델 전략

GS리테일은 Amazon Bedrock Prompt Router를 활용하여 비용 효율적인 모델과 고성능 모델을 상황에 맞게 선택하는 하이브리드 전략을 채택했다. Anthropic Claude Sonnet 계열 모델을 사용하여 반복적인 도구 호출 및 데이터 수집을 처리하고, 최종 근본 원인 도출 단계에서는 Anthropic Claude Opus 4.5를 호출하여 분석 품질을 높였다.

Prompt Router를 통해 모델 간 자동 라우팅, 작업 복잡도에 따라 최적의 모델 선택

비용 최적화(Cost Optimization)와 분석 품질 간의 균형을 유지

개발 시점의 제약으로 인해 Opus 4.5를 별도 인터프리터 방식으로 호출

MCP(Model Context Protocol) 기반의 유연한 도구 연동

GS리테일은 Model Context Protocol(MCP)을 활용하여 다양한 운영 도구들을 AI 에이전트와 통합했다. MCP는 AI 모델과 외부 도구 간의 표준화된 연동 인터페이스를 제공하여, 각 도구를 개별 MCP 서버로 구성하고 AI 에이전트가 필요에 따라 자유롭게 호출할 수 있도록 한다.

7개 이상의 도구(Datadog, Bitbucket, Confluence, AWS, EKS, PostgreSQL, OpenSearch)를 AI가 직접 활용

Datadog 공식 MCP 서버를 직접 호출하여 API 연동

HTTP 직접 호출 구조를 통해 레이턴시 최소화 및 아키텍처 단순화

RAG(Retrieval-Augmented Generation) 기반 지식 검색

GS리테일은 RAG(Retrieval-Augmented Generation) 기술을 활용하여 과거 인시던트 분석 결과를 재사용하고, 분석 정확도를 향상시켰다. Amazon S3 VectorsAmazon Titan Embeddings v2를 사용하여 과거 인시던트 분석 결과를 벡터화하고, 새로운 인시던트 발생 시 유사 패턴을 검색하여 분석에 활용한다.

과거 인시던트 분석 결과(Incident Analysis Results)를 벡터화하여 지식 베이스 구축

Amazon Neptune 기반 GraphRAG를 통해 시스템 온톨로지 구성, Upstream/Downstream 영향도 파악

분석 정확도 향상(Accuracy Improvement) 및 근본 원인 도출 능력 강화

SRE AI Chat Web: 운영자와 AI의 협업

GS리테일은 자동 분석 시스템 외에도, 운영자가 AI와 직접 대화하며 인시던트를 분석할 수 있는 SRE AI Chat Web을 구축했다. 운영자가 자연어로 질문하면 AI가 실시간으로 Datadog, AWS, Bitbucket 등의 도구를 호출하여 답변을 제공한다.

FastAPI 기반 SSE(Server-Sent Events) 스트리밍 API를 통해 실시간 분석 과정 제공

React/Vite SPA 기반 프론트엔드, Amazon S3 정적 호스팅 + Amazon CloudFront CDN 활용

Amazon DynamoDB에 대화 이력 저장, 투명한 분석 과정 제공

GS리테일의 AIOps Agent 기반 운영 자동화 혁신

댓글 0

첫 번째 댓글을 남겨보세요!