EKS Auto Mode로 AI 플랫폼 운영 자동화 & 비용 절감!
LLM 기반 에이전트(Agent)의 확장성 한계를 극복하기 위해, 고성능 LLM과 도메인 특화 SLM을 결합한 이질적 다중 모델(Heterogeneous Multi-model) 생태계 구축
Amazon EKS Auto Mode를 활용하여 GPU 인프라를 자동화하고, Bifrost AI Gateway로 자체 호스팅 모델과 Amazon Bedrock을 통합
2-Tier 관측성(Observability) 확보를 위해 Bifrost(인프라 레벨)와 Langfuse(애플리케이션 레벨)를 활용하여 비용 최적화(Cost Optimization)와 품질 관리
EKS Auto Mode는 Karpenter를 통해 GPU 노드 자동 프로비저닝(GPU Node Auto-provisioning) 및 Spot 인스턴스 활용을 지원하여 비용 절감
자체 호스팅 vLLM과 Bedrock의 멀티 모델 라우팅(Multi-model Routing)을 통해 쿼리 유형에 따라 최적의 모델을 선택, API 비용 75% 절감
EKS Auto Mode를 활용한 GPU 인프라 자동화
본문은 Amazon EKS Auto Mode를 통해 GPU 인프라 프로비저닝(Provisioning)과 관리를 자동화하는 방법을 제시한다. EKS Auto Mode는 Karpenter(Karpenter)를 내장하여 GPU 노드의 Just-in-Time 프로비저닝(Just-in-Time Provisioning)과 Spot 인스턴스(Spot Instance) 활용을 자동 처리한다.
자동화된 컴포넌트 관리: VPC CNI, EBS CSI Driver, CoreDNS 등 핵심 컴포넌트 자동 설치 및 업그레이드
GPU 드라이버 및 Device Plugin 자동 설치: Pod에서 nvidia.com/gpu: 1을 요청하면 추가 설정 없이 GPU 사용 가능
Spot 인스턴스 활용: Karpenter의 Spot 우선 설정으로 최대 70% 비용 절감
EKS Auto Mode는 GPU 워크로드 운영 부담을 줄이고, 오픈소스의 유연성을 확보하는 데 기여한다.
Bifrost AI Gateway를 통한 멀티 모델 라우팅
Bifrost AI Gateway는 자체 호스팅 모델과 Amazon Bedrock을 통합하여, 앱 코드 변경 없이 모델 간 라우팅을 전환할 수 있도록 지원한다. Bifrost는 20개 이상의 모델 제공자를 OpenAI-compatible API로 통합하며, 자체 호스팅 vLLM도 Custom Provider로 등록하여 동일한 인터페이스로 관리한다.
OpenAI-compatible API 지원: 다양한 LLM을 단일 엔드포인트로 통합
Custom Provider: 자체 호스팅 모델(vLLM)을 Bedrock과 동일하게 관리
ConfigMap 기반 라우팅: 쿼리 타입별 모델을 지정하여 유연한 라우팅 전략 구현
Bifrost를 통해 애플리케이션은 단일 엔드포인트만 호출하고, provider/model 형식으로 라우팅 대상을 지정하여 유지보수성(Maintainability)을 향상시킨다.
2-Tier 관측성(Observability) 확보 전략
본문은 AI 플랫폼의 비용과 품질을 동시에 관리하기 위해 인프라 레벨과 애플리케이션 레벨, 두 가지 관측성을 확보하는 2-Tier 관측성 전략을 제시한다. 인프라 레벨에서는 Bifrost를 통해 모델별 API 호출 비용, 토큰 사용량, 지연 시간을 추적하고, 애플리케이션 레벨에서는 Langfuse를 통해 각 에이전트의 실행 시간, 입출력, 품질 평가를 추적한다.
인프라 레벨 관측성(Bifrost): 모델별 API 호출 비용, 토큰 사용량, 지연 시간 추적
애플리케이션 레벨 관측성(Langfuse): 각 에이전트의 실행 시간, 입출력, 품질 평가 추적
2-Tier 구조: 인프라 비용 최적화(모델 선택)와 애플리케이션 품질 최적화(에이전트 튜닝) 동시 수행
이러한 2-Tier 관측성 확보를 통해 AI 플랫폼의 운영 안정성을 높이고, 지속적인 개선을 가능하게 한다.
vLLM 자체 호스팅을 위한 아키텍처
본문은 vLLM을 자체 호스팅하여 비용을 절감하고, 성능을 최적화하는 아키텍처를 제시한다. vLLM은 PagedAttention 알고리즘을 사용하여 GPU 메모리 효율을 극대화하는 고성능 오픈소스 LLM 서빙 라이브러리이다. EKS Auto Mode에서는 Graviton 인스턴스가 선택될 수 있으므로, vLLM Production Stack Helm chart 대신 Kubernetes Deployment를 직접 작성하여 GPU NodePool에 배포하는 방법을 권장한다.
Graviton 인스턴스 고려: ARM64 이미지를 제공하지 않는 컴포넌트(vLLM router)에 대한 대응 필요
Deployment 설정: nodeSelector, enableServiceLinks, --max-model-len 설정
GPU NodePool 스케줄링: Karpenter를 통해 g5 Spot 인스턴스 자동 프로비저닝
이러한 설정을 통해 vLLM의 성능을 극대화하고, GPU 자원 활용도를 높일 수 있다.
Langfuse를 활용한 LLM 트레이싱
Langfuse는 LLM 애플리케이션의 트레이싱, 평가, 비용 추적을 위한 오픈소스 관측성 플랫폼이다. 데이터 주권이 중요하거나 비용 최적화가 필요한 경우 자체 호스팅을 권장한다. Langfuse는 OpenTelemetry 기반이며, 각 에이전트에 @observe 데코레이터를 추가하면 span이 자동 기록되고, propagate_attributes()로 trace metadata가 하위 span에 전파된다.
OpenTelemetry 기반: 각 에이전트의 입출력, 실행 시간, 에러 자동 기록
@observe 데코레이터: 코드 변경 최소화
propagate_attributes(): trace metadata 전파
Langfuse를 통해 LLM 애플리케이션의 가시성을 확보하고, 문제 해결 및 성능 개선을 위한 인사이트를 얻을 수 있다.
프로덕션 환경 확장을 위한 고려 사항
본문은 EKS Auto Mode + Bifrost + Langfuse를 기반으로 구축된 Agentic AI 플랫폼을 프로덕션 환경으로 확장하기 위한 주요 영역을 제시한다. 컨트롤 플레인 확장, AWS 리소스 관리, 인프라 추상화, MLOps 자동화, 트래픽 관리, 추론 최적화, LoRA Lifecycle, Agent 안전성, GPU 파티셔닝 등 다양한 측면을 고려해야 한다.
점진적 도입: AWS Native(Bedrock) → EKS Auto Mode → EKS Capability(ACK, KRO, Argo) 순으로 확장
다양한 솔루션: PCP, ACK, KRO, Argo CD, kgateway, llm-d, Multi-LoRA, NeMo Guardrails, DRA 등
운영 자동화: MLOps 자동화, 인프라 추상화, 트래픽 관리
프로덕션 환경에서는 이러한 요소들을 고려하여 시스템의 안정성, 확장성, 효율성을 확보해야 한다.