NVIDIA, GPU 클라우드 플랫폼 NVCF를 오픈소스로 공개!

by DD
1주 전
조회수 2

NVIDIA가 GPU 기반 클라우드 기능 플랫폼인 NVCF(NVIDIA Cloud Functions)를 오픈소스로 공개하여, 내부 아키텍처와 구현 방식을 투명하게 공개함

NVCF는 NATS JetStream을 활용한 스케일 투 제로(Scale-to-Zero) 기능을 통해 GPU 자원 효율성을 극대화하고, 콜드 스타트(Cold Start) 문제를 해결함

멀티 클러스터(Multi-Cluster) 환경 지원을 통해 온프레미스(On-premise) 및 클라우드 환경에서 GPU 자원 관리를 통합함

커뮤니티에서는 Olric과 같은 기술의 활용 사례에 대한 관심과 함께, 오픈소스 기여(Open Source Contribution)에 대한 기대감을 표명함

NVCF의 3-Plane 아키텍처(Three-Plane Architecture) 심층 분석

NVCF는 Control Plane, Invocation Plane, Compute Plane으로 구성된 3-Plane 아키텍처(Three-Plane Architecture)를 채택하여 각 구성 요소의 독립적인 스케일링(Independent Scaling)을 지원한다. Control Plane은 Kubernetes 클러스터에서 실행되며, 함수 라이프사이클 관리, 오토스케일링(Autoscaling) 결정, 시크릿 관리(Secrets Management)를 담당한다. Invocation Plane은 HTTP/gRPC 요청 처리NATS JetStream을 통한 메시지 큐잉(Message Queuing)을 수행하며, Compute Plane은 NVIDIA Cluster Agent(NVCA)를 통해 GPU 클러스터(GPU Cluster)를 관리한다. 이러한 분리된 구조는 시스템의 확장성(Scalability)유연성(Flexibility)을 향상시킨다.

NATS JetStream을 활용한 스케일 투 제로(Scale-to-Zero) 기술

NVCF는 NATS JetStream을 활용하여 스케일 투 제로(Scale-to-Zero) 기능을 구현하여 GPU 자원 효율성을 극대화한다. 요청이 없을 때는 GPU 인스턴스를 0으로 유지하고, 새로운 요청이 들어오면 NATS JetStream에 메시지를 버퍼링(Buffering)한다. 오토스케일러(Autoscaler)는 큐(Queue)의 깊이를 감지하여 GPU 인스턴스를 시작하고, 버퍼링된 요청을 처리한다. 이러한 방식은 콜드 스타트(Cold Start)로 인한 지연 시간을 최소화하고, GPU 자원 낭비(GPU Resource Waste)를 방지하는 데 기여한다.

멀티 클러스터(Multi-Cluster) 환경 지원 및 라우팅 전략

NVCF는 멀티 클러스터(Multi-Cluster) 환경을 지원하여 온프레미스(On-premise) 및 클라우드 환경에서 GPU 자원을 통합 관리할 수 있도록 설계되었다. 각 GPU 클러스터는 자체적인 NVCA(NVIDIA Cluster Agent)를 실행하며, NATS JetStream을 통해 메시지를 주고받는다. Invocation Plane은 함수 배포 사양에 따라 요청을 적절한 GPU 클러스터로 라우팅(Routing)한다. 이러한 아키텍처는 다양한 환경(Diverse Environment)에서의 유연한 GPU 자원 활용을 가능하게 한다.

오픈소스 공개의 의미와 커뮤니티 기여 경로

NVIDIA의 NVCF 오픈소스 공개는 기업들이 플랫폼의 아키텍처 결정(Architectural Decision)을 직접 검증하고, 커스터마이징(Customization)할 수 있는 기회를 제공한다. 특히, 오토스케일러(Autoscaler)의 Rust 코드 수정, NATS 인증 전략(NATS Authentication Strategy) 추가, MiniService 컨트롤러(MiniService Controller) 확장 등 다양한 방식으로 기여할 수 있다. NVIDIA는 커뮤니티 기여를 위한 경로를 마련하고 있으며, 이는 NVCF 플랫폼의 지속적인 발전과 생태계 확장에 기여할 것으로 예상된다.

NVCF Is Now Open Source: Inside NVIDIA's GPU Function Platform