삼성계정, Agentic AIOps로 장애 분석 자동화 성공!

삼성계정 서비스 운영에 GenAI를 활용하여 장애 대응(Incident Response) 자동화를 구현

Strands Agents SDK의 Agents as Tools 패턴을 활용, Multi-Agent 시스템(Multi-Agent System)을 구축

이상 탐지 후 5분 이내 근본 원인 분석 및 조치 가이드 제공으로 MTTR/MTTD 단축

오픈소스 MCP 서버의 한계를 극복하고, Custom Datadog MCP 서버를 구축

Agentic AI 시스템은 분석 자동화와 운영 의사결정 품질 개선을 목표로 함

Agentic AIOps의 등장 배경: 전통적 AIOps의 한계

본문에서는 전통적인 AIOps(Artificial Intelligence for IT Operations)의 한계를 지적하며, Agentic AIOps의 필요성을 강조한다. 기존 AIOps는 이벤트 상관관계 분석(Event Correlation)과 이상 탐지(Anomaly Detection)에 강점을 보였지만, 근본 원인 분석(Root Cause Analysis)은 여전히 사람의 몫으로 남아 있었다. 특히, 마이크로서비스 아키텍처(Microservices Architecture), 멀티클라우드 환경(Multi-Cloud Environment) 등 IT 인프라(IT Infrastructure)의 복잡성이 증가하면서, 문제 해결에 필요한 시간(MTTR)과 탐지 시간(MTTD)을 줄이는 데 어려움이 있었다. 이러한 한계를 극복하기 위해, 생성형 AI(Generative AI)와 Multi-Agent 시스템(Multi-Agent System)을 활용하는 Agentic AIOps가 부상했다.

Strands Agents SDK의 Agents as Tools 패턴 심층 분석

Strands Agents SDK의 Agents as Tools 패턴은 계층적 위임(Hierarchical Delegation)을 구현하여 Multi-Agent 시스템을 구축한다. 이 패턴은 Orchestrator Agent와 Specialist Agent(전문가 Agent)로 구성된다. Orchestrator Agent는 들어온 요청을 분석하고, 적절한 전문가 Agent를 호출하는 역할을 수행하며, Specialist Agent는 특정 도메인에 특화된 작업을 수행한다. 특히, 모델 기반 오케스트레이션(Model-driven Orchestration)을 통해 실행 흐름을 동적으로 결정하며, 이는 장애 분석과 같이 상황에 따라 필요한 정보와 분석 방향이 달라지는 작업에 적합하다. Graph 패턴과 비교하여, Agents as Tools는 유연성을 제공하며, 새로운 전문가 Agent를 쉽게 추가할 수 있는 장점을 가진다.

FastMCP 기반 Custom Datadog MCP 서버 구축

오픈소스 MCP 서버의 한계를 극복하기 위해, FastMCP를 기반으로 Custom Datadog MCP 서버를 구축했다. FastMCP는 Model Context Protocol(MCP) 서버를 빠르고 Pythonic하게 구축할 수 있는 프레임워크이다. Custom MCP 서버의 핵심 설계 원칙은 “숫자가 아닌 상태 변화를 전달한다”는 것이다. Datadog API가 반환하는 원시 메트릭 값을 그대로 전달하는 대신, 기준선 대비 변화율, 이상 징후 여부, 관련 배포 이력 등의 맥락 정보를 함께 구조화하여 전달하도록 설계했다. 이를 통해 Agent가 운영자와 유사한 수준의 상황 인식을 가질 수 있도록 했다. 데이터 격리 아키텍처(Data Isolation Architecture)를 통해 분석의 정확성을 높였다.

Multi-Agent 시스템 아키텍처의 기술적 구현 상세

본문에서는 Strands Agents SDK를 활용한 Multi-Agent 시스템의 기술적 구현 상세를 설명한다. 시스템은 DataCollector Agent, Analyzer Agent, SolutionProvider Agent로 구성된다. DataCollector Agent는 Datadog MCP 서버를 통해 서비스 메트릭, EKS 클러스터 상태, 에러 로그 패턴을 수집한다. Analyzer Agent는 수집된 데이터를 기반으로 근본 원인 분석(RCA)을 수행하며, Chain-of-Thought 방식을 활용한다. SolutionProvider Agent는 RCA 분석 결과를 기반으로 실행 가능한 조치 가이드를 제안한다. 각 Agent는 @tool 데코레이터를 통해 호출 가능한 함수로 래핑되어, Orchestrator Agent가 필요에 따라 적절한 전문가 Agent를 호출할 수 있게 한다.

Agentic AIOps 시스템의 성공 요인: 환각 방지 구조

본 프로젝트에서 환각(Hallucination)을 줄이기 위해, Agent 간 역할 분리와 책임 경계를 명확히 했다. DataCollector Agent는 실제 MCP 도구에서 반환된 관측 데이터만 수집하고, Analyzer Agent는 그 데이터만을 근거로 분석을 수행하며, SolutionProvider Agent는 검증된 분석 결과와 과거 사례만 참조하도록 설계되었다. 각 Agent의 역할이 명확히 제한되어 있기 때문에, 데이터 없이 그럴듯한 결론을 만들어내는 것이 구조적으로 어려워졌다. 즉, 데이터 미저장 정책(Zero-Retention Policy)을 통해 시스템의 신뢰성을 확보했다. 이는 더 많은 규칙을 프롬프트에 추가하는 것보다, 잘못된 행동이 불가능한 구조를 만드는 것이 환각을 줄이는 더 효과적인 방법임을 보여준다.

Agentic AIOps의 미래: 자동화와 거버넌스의 균형

Agentic AIOps는 운영 의사결정의 품질을 지속적으로 개선하는 것을 목표로 한다. 자동 분석은 사람을 대체하기 위한 수단이 아니라, 사람이 더 나은 판단을 내릴 수 있도록 돕는 구조적 장치이다. 본 사례에서는 자동 분석을 통해 운영 효율성을 높였지만, 최종 실행 권한은 사람에게 남겨두어, 예기치 않은 행동으로 인한 위험을 최소화했다. 각 Agent와 MCP 서버는 최소 권한 원칙에 따라 설계되었으며, 실제 환경에 영향을 미치는 권한은 의도적으로 배제되었다. 이러한 설계는 자동화의 이점을 유지하면서도, 운영 거버넌스의 핵심 원칙을 준수한다.