EKS에서 NVIDIA OSMO로 Physical AI 워크플로를 효율적으로 운영하는 방법
Physical AI 워크플로의 복잡한 라이프사이클 관리를 위해 Amazon EKS 기반의 레퍼런스 아키텍처를 제시함
NVIDIA OSMO를 중심으로 Karpenter, GPU Operator, AWS 관리형 서비스 등을 통합하여 GPU 워크로드 운영 효율성을 높임
반복 가능한 운영 패턴을 통해 GPU 스케줄링, 아티팩트 보존, 관찰 가능성, 보안을 통합 관리함
순차 및 병렬 실행 패턴을 활용하여 데이터 생성부터 모델 학습까지의 파이프라인을 효과적으로 구성함
Amazon EKS 기반 Physical AI 워크플로 아키텍처
본 아키텍처는 Amazon EKS(Amazon Elastic Kubernetes Service)를 관리형 Kubernetes 컨트롤 플레인으로 활용하며, NVIDIA OSMO 워크플로 파드는 Karpenter 기반 EC2 GPU 인스턴스에서 실행됨. 데이터 저장소로는 Amazon S3 기반 아티팩트 저장소를 사용하고, 메타데이터 및 시크릿 관리는 AWS 관리형 백엔드 서비스(RDS, ElastiCache, Secrets Manager 등)를 통해 이루어짐. Amazon Managed Service for Prometheus(AMP)와 Amazon Managed Grafana(AMG)는 클러스터 및 GPU 메트릭 수집과 시각화를 담당하며, Elastic Fabric Adapter(EFA)는 분산 학습 시 네트워크 가속을 제공함. 이러한 구성은 GPU 스케줄링, 아티팩트 보존, 관찰 가능성, 보안을 통합된 운영 패턴으로 관리 가능하게 함.
NVIDIA OSMO 워크플로 오케스트레이션 및 실행
NVIDIA OSMO는 Physical AI 개발의 반복적인 워크플로를 YAML로 정의하고 실행하는 프레임워크임. 원격 GPU 노드에서의 인터랙티브 개발, 합성 데이터 생성, 분산 GPU 클러스터 학습, 하드웨어 검증 등 다양한 작업을 동일한 방식으로 정의 가능. 워크플로 YAML에는 컨테이너 이미지, 리소스 요구사항(CPU, GPU, 메모리, 스토리지), 작업 의존성, 출력 데이터셋이 명시되며, OSMO CLI를 통해 제출 및 상태 확인이 이루어짐. 이 아키텍처에서는 OSMO를 외부 의존성으로 유지하고, compute pool은 EKS GPU 노드로, data store는 S3로 매핑하여 컴퓨팅 리소스와 데이터 저장소를 분리함.
GPU 노드 프로비저닝 및 관리: Karpenter와 GPU Operator
워크플로가 요청한 GPU 리소스에 맞춰 Karpenter는 Amazon EC2 G family GPU 인스턴스를 동적으로 생성하고 회수함. NVIDIA GPU Operator는 Kubernetes에 GPU 리소스를 노출하고 DCGM 기반 GPU 텔레메트리를 제공하며, EKS NVIDIA AMI에 포함된 드라이버와 컨테이너 툴킷을 활용함. 특히, EFA(Elastic Fabric Adapter) 지원 G family 인스턴스에서는 분산 학습을 위한 네트워크 가속이 제공됨. 이를 통해 GPU 스케줄링의 효율성을 높이고, 사용하지 않는 노드는 자동으로 회수하여 비용을 최적화함.
워크플로 실행 경로 및 스케줄링: KAI Scheduler와 PodGroup
NVIDIA OSMO 워크플로의 Kubernetes 스케줄링은 KAI Scheduler가 담당하며, PodGroup CRD와 gang scheduling 동작을 처리함. 워크플로 pod는 platform 설정에 따라 특정 GPU NodePool에 배치되고, GPU taint에 대응하는 toleration을 가짐. karpenter.sh/do-not-disrupt=true annotation은 장시간 실행되는 학습 pod가 Karpenter에 의해 중단되지 않도록 보호함. GPU 노드가 부족할 경우 Karpenter가 인스턴스를 프로비저닝하며, 노드 조인 후 GPU Operator가 리소스를 노출함. OSMO는 워크플로 제출 시점에 가용 리소스를 검증하며, prewarm pod를 통해 대상 platform capacity를 OSMO에 먼저 노출하는 방식을 사용함.
데이터 및 아티팩트 관리: S3와 AWS 관리형 서비스
워크플로 실행 결과물인 아티팩트는 Amazon S3에 저장되며, 메타데이터, 이미지, 시크릿 등은 Amazon RDS, Amazon ElastiCache, Amazon ECR, AWS Secrets Manager와 같은 AWS 관리형 백엔드 서비스를 통해 보존됨. 보안 강화를 위해 모든 AWS 서비스 엔드포인트와 노드는 프라이빗 네트워크에 배치하고, 퍼블릭 액세스를 차단하며, 볼륨 암호화를 적용함. OSMO 워크플로의 입력과 출력 데이터셋은 명시적인 OSMO 데이터셋으로 관리되어, 특정 단계의 재실행이나 다른 데이터셋을 사용한 실험 반복이 용이함.
운영 고려사항: 모니터링, 비용, 캐퍼시티 관리
본 레퍼런스 아키텍처는 Amazon Managed Service for Prometheus와 Amazon Managed Grafana를 활용하여 NVIDIA OSMO 서비스, 워크플로 pod, GPU 메트릭을 수집하고 시각화함. GPU 메트릭은 NVIDIA DCGM exporter를 통해 수집되며, 대시보드는 GPU utilization, memory, power, temperature 등을 모니터링함. GPU 비용 관리를 위해 Karpenter의 자동 스케일링을 활용하고, 필요시 EC2 Capacity Reservation 또는 Capacity Blocks 사용을 고려함. 멀티 노드 분산 학습 시 EFA 사용을 위한 동일 AZ 배치 및 cluster placement group 활용이 권장됨.