달파, Amazon EKS Hybrid Nodes로 GPU 비용 70% 절감!

by DD
4개월 전
조회수 20

AI 에이전트 플랫폼 기업 달파는 Amazon EKS Hybrid Nodes를 도입하여 온프레미스 GPU 자원 활용과 클라우드 유연성을 결합

EKS Hybrid Nodes를 통해 온프레미스 및 클라우드 환경을 단일 Kubernetes 클러스터로 통합 관리하며 클러스터 관리 부담 감소

비용 70% 절감, 클러스터 운영 부담 감소, 가용성 향상, 네트워크 복잡도 감소 등 다양한 운영 효율성 확보

EKS Hybrid Nodes 아키텍처 심층 분석

달파는 Amazon EKS Hybrid Nodes를 통해 온프레미스 GPU 자원과 AWS 클라우드를 통합하여 운영한다. 아키텍처는 크게 AWS 클라우드 환경과 온프레미스 환경으로 구분되며, 프라이빗 연결(Private Connectivity)을 통해 안전하게 통신한다.

AWS 클라우드: EKS 클러스터는 RemoteNetworkConfig를 통해 온프레미스 환경과 하이브리드 네트워크를 구성하며, VPC 라우팅 테이블을 설정하여 트래픽을 관리

온프레미스 환경: 온프레미스 노드는 파드 CIDR을 할당받아 운영되며, 온프레미스 라우팅 테이블을 통해 트래픽을 라우팅

핵심 기술: Site-to-Site VPN(Site-to-Site VPN), Transit Gateway(Transit Gateway), BGP(Border Gateway Protocol) 등을 활용하여 안전하고 효율적인 하이브리드 환경 구축

비용 절감 및 운영 효율성 확보

달파는 EKS Hybrid Nodes 도입을 통해 GPU 비용 70% 절감이라는 괄목할 만한 성과를 달성했다. 이는 온프레미스 GPU 자원을 적극적으로 활용하고, 필요에 따라 클라우드 자원을 유연하게 사용할 수 있게 된 결과이다.

비용 효율성: 온디맨드(On-demand) GPU 인스턴스 사용 대비 70% 비용 절감

운영 부담 감소: AWS 관리형 컨트롤 플레인(Managed Control Plane)을 활용하여 클러스터 관리 작업 간소화

가용성 향상: 노드 장애 시 클라우드 GPU 자원을 폴백(Fallback)으로 활용하여 서비스 연속성 보장

이러한 성과는 달파가 하이브리드 클라우드(Hybrid Cloud) 환경을 성공적으로 구축했음을 보여준다.

하이브리드 네트워크 구성 및 관리

달파는 EKS Hybrid Nodes 환경에서 안정적인 네트워크 연결을 위해 Site-to-Site VPN 연결 안정성 강화 및 Router Node와의 IP Routing Setup 문제를 해결했다.

Site-to-Site VPN 안정성: keepalived를 활용한 active-standby 구조 구성으로 VPN 연결 장애 예방

IP Routing 자동화: BGP(Border Gateway Protocol) daemon을 각 노드에 세팅하여 IP route 설정 자동화

Cilium(Cilium) 고려: 향후 Cilium 기반으로 네트워크 구성을 일원화하여 관리 효율성 증대

이러한 노력은 하이브리드 환경의 네트워크 복잡도(Network Complexity)를 줄이고, 안정적인 서비스 운영을 가능하게 했다.

BGP 기반 라우팅 설정 심층 분석

달파는 BGP(Border Gateway Protocol)를 활용하여 온프레미스와 클라우드 간의 동적 라우팅을 구현했다. 이는 수동적인 라우팅 테이블 관리의 어려움을 해결하고, 네트워크 변화에 유연하게 대응하기 위한 전략이다.

BGP 설정: bird daemon을 사용하여 각 노드에 pod CIDR route를 구성하고, router node에서 내부 CIDR에 대한 route를 export

BIRD 설정: 각 hybrid node에서 daemonset으로 bird를 띄워 BGP 라우팅 설정

향후 개선: Cilium을 활용하여 BGP 설정을 간소화하고, 네트워크 관리 효율성을 높일 계획

이러한 BGP 기반 라우팅 설정은 네트워크 자동화(Network Automation)를 통해 운영 부담을 줄이고, 시스템 안정성을 향상시키는 데 기여했다.

EKS Hybrid Nodes 도입의 기술적 과제와 해결

달파는 EKS Hybrid Nodes 도입 과정에서 Site-to-Site VPN 연결 안정성 강화 및 Router Node와의 IP Routing Setup 문제 등 기술적 과제에 직면했다. 이러한 문제들을 해결하기 위해 다음과 같은 노력을 기울였다.

Site-to-Site VPN 연결 안정성 강화: strongSwan 기반 IPsec Site-to-Site VPN 환경 위에 ipsec status를 script로 모니터링하는 keepalived 세팅을 구성

Router Node 와의 IP Routing Setup 문제 해결: BGP (Border Gateway Protocol) daemon을 각 node에 세팅해 ip route 설정을 자동화

Cilium 기반 일원화: 향후 Cilium 기반으로 일원화하여 관리 효율성 증대

이러한 문제 해결을 통해 달파는 하이브리드 클라우드(Hybrid Cloud) 환경을 안정적으로 구축하고 운영할 수 있게 되었다.

달파의 Amazon EKS Hybrid Nodes를 활용한 클러스터 안정성 및 비용 절감 사례