야놀자, AI Agent로 인프라 운영 자동화 성공!

by DD
1개월 전
조회수 106

야놀자는 Amazon Bedrock AgentCore를 활용하여 6개의 AI Agent를 구축, 수동 업무 시간 50% 이상 감소

Strands Agent SDK를 활용, Multi-Agent 시스템을 설계하여 IDP 장애 진단, DB 알람 대응 등 다양한 운영 문제 해결

AWS Bedrock의 다양한 Foundation Model과 완전 관리형 서비스를 활용하여 Agent 개발 및 운영 효율성 확보

6주간의 Full-day Sprint를 통해 14명의 엔지니어가 참여, AI Champion 양성 및 자체 AI 역량 내재화

향후 에이전트 통합 운영 플랫폼 구축, GUI 기반 Agent Builder 개발 등 AIOps 플랫폼 확장 계획 발표

Strands Agent SDK를 활용한 Multi-Agent 시스템 설계

야놀자는 복잡한 Agent 간 협업을 위해 Strands Agents를 도입했다. Strands Agents는 모델 드리븐(Model-Driven) 방식을 채택하여 작업 계획, 위임, 평가를 수행한다.

Orchestrator Agent: 사용자 요청 분석 및 적절한 Sub-Agent에게 작업 위임

Sub-Agent: Orchestrator Agent의 도구(Tool)로 등록되어 호출

Context 공유: Agent 간 대화 컨텍스트 유지

Strands의 네이티브 MCP(Model Context Protocol) 지원을 통해 AWS API, DataDog, GitHub 등 다양한 외부 시스템과 통합했다.

Amazon Bedrock AgentCore의 장점

야놀자는 Amazon Bedrock AgentCore를 통해 AI Agent를 프로덕션 환경에서 안전하게 구축, 배포, 운영했다. Amazon Bedrock은 다양한 파운데이션 모델(Foundation Model)을 API 형태로 제공하며, 데이터가 모델 학습에 사용되지 않는 엔터프라이즈급 보안(Enterprise-Grade Security)을 제공한다.

다양한 Foundation Model 지원: Claude Opus 4.6, Sonnet 4.6 등 최신 LLM 활용

완전 관리형 서비스: 인프라 관리 부담 없이 Agent 개발에 집중 가능

Knowledge Base와 RAG 통합: Self-correct RAG 패턴 구현을 통해 기존 문서와 히스토리 활용

이러한 특징은 야놀자가 AIOps 솔루션 구축에 집중할 수 있도록 지원했다.

AIOps Agent 구축을 통한 운영 효율성 향상

야놀자는 IDP 장애 진단, DB 알람 대응, FinOps 비용 분석 등 6개의 AI Agent를 구축하여 운영 효율성을 높였다. 각 Agent는 Strands Framework, AWS Bedrock, MCP Server 등을 활용하여 Multi-Agent 시스템을 구성했다.

IDP 장애 진단: 티켓 감소율 50%, MTTR 50% 단축

Slack 기반 장애대응 자동화: 포스트모템 작성 시간 2주 → 24시간 단축

DB ChatBot: 이슈 발생 시 관련 리소스 분석 및 대응 시간 단축

이러한 결과는 수동 업무 시간 50% 이상 감소라는 정량적 목표 달성으로 이어졌다.

AI Champion 양성을 통한 조직 역량 내재화

야놀자는 AI Agent 개발 경험 내재화를 위해 14명의 엔지니어를 대상으로 6주간의 Full-day Sprint를 진행했다. 이를 통해 프롬프트 엔지니어링, RAG 파이프라인 구성, Agent 도구 연동 등 AI Agent 개발 전 과정을 직접 경험하도록 했다.

문제 해결 관점의 전환: 운영 업무를 “AI Agent에게 위임 가능한 작업”으로 재정의

기술 스택 표준화 기반 마련: AWS Bedrock, Strands Agents SDK 등 핵심 기술 스택에 대한 이해도 증진

지속적인 AI 혁신 기반 마련: 재사용 가능한 개발 가이드와 컴포넌트 축적

결과적으로, 야놀자는 AI 기술 도입을 넘어 조직의 AI 역량을 강화했다.

AIOps 플랫폼 확장을 위한 향후 계획

야놀자는 Sprint에서 검증된 개별 AI Agent의 성과를 조직 전체로 확산하기 위해 에이전트 통합 운영 플랫폼을 구축할 예정이다.

지능형 오케스트레이터 구축: 자연어 요청 분석 및 자동 위임

에이전트 저작 환경 제공: GUI 기반 Agent Builder 구축

멀티 에이전트 협업 체계 확장: A2A 프로토콜 기반 자생적 에이전트 생태계 구축

전문화된 도메인 에이전트 확대: SRE, DBA, DevOps, Security 등 IT 운영 전 영역 커버

이러한 계획은 AIOps 플랫폼의 지속적인 발전을 위한 기반이 될 것이다.

AIOps 도입 성공 요인 분석

야놀자의 AIOps 도입 성공 요인은 현업 중심의 문제 정의, AWS 완전 관리형 서비스 활용, 조직 역량의 내재화로 요약된다.

현업 중심 문제 정의: IDP 장애 진단, DB 알람 대응 등 구체적인 운영 과제에서 출발

AWS 완전 관리형 서비스 활용: Amazon Bedrock, AgentCore, Strands Agents SDK 등 개발 및 운영 효율성 극대화

조직 역량의 내재화: 14명의 AI Champion 양성 및 재사용 가능한 개발 가이드 축적

이러한 요인들은 야놀자가 AIOps를 성공적으로 구축하고, 지속적인 혁신을 이룰 수 있는 원동력이 되었다.

야놀자의 Strands SDK와 Bedrock AgentCore를 활용한 AIOps Agent 구축 사례

댓글 0

첫 번째 댓글을 남겨보세요!