HYBE, AI 에이전트로 인시던트 조사 1시간 → 즉시 완료
새벽 인시던트 발생 시 운영자 수동 조사에 30분~1시간 소요, 도구 분산 및 컨텍스트 전환이 주요 병목으로 작용함
AWS DevOps Agent와 4개의 Custom MCP 서버를 조합하여 에러 감지부터 Jira 자동 생성까지 DevOps 워크플로우 자동화를 목표로 함
Service Catalog MCP로 서비스 이름 불일치 문제 해결, GitLab MCP로 심층 코드 조사, Athena MCP로 과거 로그 검색 등 하이브리드 전략으로 자동화 완성
인시던트 대응 시간 30분~1시간에서 운영자 개입 없이 완료로 단축, 개발팀의 MR 리뷰 자동화 등 운영 효율 극대화
AWS DevOps Agent와 Custom MCP의 하이브리드 아키텍처
HYBE는 AWS DevOps Agent의 강력한 자율 조사(Autonomous Investigation) 및 토폴로지 빌드(Topology Build) 기능을 핵심 엔진으로 활용하면서, 자체 구축한 Custom MCP 서버를 통해 부족한 부분을 보완하는 하이브리드 전략을 채택했습니다. 이는 DevOps 특화 기능을 직접 구현하는 데 드는 막대한 개발 공수를 절감하고, 사내 환경에 최적화된 도구 연동을 가능하게 합니다. 특히 Service Catalog MCP는 Datadog, GitLab, AWS 간의 서비스 이름 불일치 문제를 해결하는 데 결정적인 역할을 수행했으며, Python FastAPI로 구축된 4개의 MCP 서버는 EKS 환경에 효율적으로 배포되었습니다. 이 접근 방식은 소규모 팀이 빠르게 성과를 창출하는 데 효과적이었습니다.
Service Catalog MCP를 통한 서비스 컨텍스트 통합
이 시스템의 핵심 과제 중 하나는 분산된 도구 환경에서 서비스 컨텍스트를 일관되게 파악하는 것이었습니다. Datadog, GitLab, AWS 등 각기 다른 시스템에서 동일 서비스를 지칭하는 이름이 달라 발생하는 혼란을 해결하기 위해, Service Catalog MCP 서버를 구축했습니다. 이 서버는 LLM(Claude 모델)을 활용하여 여러 소스에서 수집된 데이터를 정제하고, 서비스별 매핑 정보(Mapping Information)를 생성합니다. 4단계 LLM 파이프라인과 user_overrides.md 파일을 통한 운영자 보정 메커니즘은 카탈로그의 정확도를 높였으며, 매일 자동 갱신되어 최신 서비스 메타데이터를 유지합니다. 이는 DevOps Agent가 정확한 컨텍스트를 기반으로 조사를 수행하도록 안내하는 기반이 됩니다.
Skill과 MCP를 활용한 Agent의 자율 조사 능력 강화
AWS DevOps Agent의 Skill은 자연어 지침을 통해 Agent의 행동을 안내하며, Custom MCP 서버는 Agent가 호출할 수 있는 도구 세트를 확장합니다. HYBE는 service-catalog-first, log-search-routing-guide, gitlab-code-investigation 세 가지 Custom Skill을 등록하여 Agent의 조사 능력을 고도화했습니다. 예를 들어, `service-catalog-first` Skill은 모든 조사 전에 Service Catalog MCP를 먼저 조회하도록 강제하여, Agent가 정확한 서비스 컨텍스트를 확보하도록 합니다. `gitlab-code-investigation` Skill은 스택 트레이스에서 직접 코드를 추적하고 에러 메시지로 코드를 검색하는 등 심층 코드 레벨 분석을 가능하게 합니다. 이러한 Skill과 MCP의 조합은 코드 변경 없이 Agent의 행동을 효과적으로 제어하고 확장하는 강력한 메커니즘을 제공합니다.
Datadog 및 GitLab MCP를 통한 심층 조사 기능 구현
기본 제공되는 Datadog 및 GitLab 연동 기능 외에, HYBE는 Custom Datadog MCP 서버와 19개 도구를 갖춘 Custom GitLab MCP 서버를 자체 구축했습니다. Custom Datadog MCP는 조사 시나리오에 최적화된 도구를 선별적으로 제공하며, Custom GitLab MCP는 스택 트레이스에서 소스 코드를 직접 읽고, 에러 메시지로 코드를 검색하며, 심볼 정의를 추적하는 등 세밀한 코드 레벨 분석을 지원합니다. 이를 통해 Agent는 근본 원인 분석에 필요한 정보를 효과적으로 수집할 수 있으며, 특히 `gitlab-code-investigation` Skill은 Agent가 선제적으로 코드를 확인하도록 지시하여 조사 속도를 크게 향상시킵니다.
Athena MCP를 활용한 과거 로그 및 보안 이벤트 분석
Datadog 로그 보존 기간(3일) 이후의 로그는 Amazon Athena를 통해 S3 아카이브에서 검색 가능하도록 구성했습니다. Athena Partition Projection은 서비스명, 날짜, 시간 기준 자동 파티셔닝을 지원하며, Secondary 계정의 VPC Flow Logs, ELB Access Logs, WAF Logs까지 Athena 테이블로 통합하여 네트워크 및 보안 관점에서의 분석도 가능하게 했습니다. `log-search-routing-guide` Skill은 Agent에게 로그 소스별 검색 대상과 파티션 키 정보를 제공하여, Agent가 올바른 SQL 쿼리를 생성하도록 안내합니다. 이는 과거 인시던트 재현 및 보안 위협 분석에 필수적인 기능을 제공합니다.
자동화된 인시던트 대응 파이프라인 및 MR 리뷰
이 시스템은 Datadog 에러 감지부터 Jira 이슈 자동 생성까지 사람의 개입 없이 이루어집니다. Event Integration Lambda는 에러 타입에 따라 Jira 이슈의 Priority를 자동 매핑하며, DynamoDB를 통해 중복 생성을 방지합니다. Investigation 완료 후, Jira Integration Lambda는 Claude Haiku 4.5를 사용하여 담당팀을 분류하고 Jira에 이슈를 생성합니다. 또한, GitLab MR 생성 시 Agent가 자동으로 코드 리뷰를 수행하고, GitLab Review Integration Lambda가 결과를 MR 댓글로 등록하여 SDLC(Software Development Life Cycle) 프로세스를 자동화합니다. 이 파이프라인은 운영자의 수동 작업 시간을 획기적으로 단축하고, 개발팀의 코드 품질 향상에 기여합니다.