Friendli Container로 EKS에서 LLM 추론 비용 절감!

by DD
3개월 전
조회수 30

FriendliAI는 AI 추론 효율을 높이는 Friendli Container를 출시, GPU 사용량 50% 절감Latency 2배 개선을 달성

Friendli Container는 Amazon EKS Add-on 형태로 제공되며, 기존 EKS 워크플로우에 손쉽게 통합 가능

EKS Add-on을 통해 비용 절감, 빠른 확장성, Throughput 향상을 제공하며, AWS 통합 빌링 시스템 지원

Adobe, Mobileye 등 기업들이 EKS를 활용하여 생성형 AI 서비스를 구축

Friendli Container의 핵심 기술

Friendli Container는 FriendliAI의 고성능 서빙 솔루션을 컨테이너 형태로 제공하여, 고객 환경에서 최적화된 AI Inference 엔진을 구동한다. 특히, GPU 사용량 절감Latency 감소에 초점을 맞춰 비용 효율성을 극대화한다.

GPU 사용량 50% 이상 절감: 모델 추론 시 GPU 자원 활용률을 극대화

Latency 2배 이상 개선: 최적화된 추론 엔진을 통해 응답 시간 단축

Throughput 2배 이상 향상: 병렬 처리 및 최적화된 아키텍처를 통해 처리량 증가

Amazon EKS와의 통합: 아키텍처 및 이점

Friendli Container는 Amazon EKS Add-on 형태로 제공되어, EKS 환경에서 AI Inference 서비스 배포 및 관리를 간소화한다. EKS의 자동 확장(Auto Scaling), 로드 밸런싱(Load Balancing) 기능을 활용하여, 워크로드의 확장성(Scalability) 및 가용성(Availability)을 확보한다.

완전 관리형 Kubernetes: AWS가 Kubernetes 컨트롤 플레인을 관리하여 운영 부담 감소

원활한 AWS 통합: EC2, IAM, S3, CloudWatch 등 AWS 서비스 연동

확장성 및 유연성: 워크로드 자동 확장 및 여러 가용 영역(AZ) 지원

Friendli Container EKS Add-on 배포 절차

Friendli Container EKS Add-on을 사용하기 위해서는 EKS 클러스터 설정, Add-on 구독, Pod Identity Association 설정, FriendliDeployment 생성 단계를 거쳐야 한다. 특히, Pod Identity Association 설정은 Friendli Container가 AWS License Manager에 접근하기 위한 필수 과정이다.

GPU Node Group 추가: GPU 인스턴스 가용성 확인 및 적절한 인스턴스 타입 선택

Friendli Container Add-on 구성: AWS Marketplace에서 구독 및 설치

Pod Identity Association 설정: IAM Role 및 ServiceAccount 설정

FriendliDeployment를 이용한 배포

FriendliDeployment는 Kubernetes의 Pod, Service, Deployment 등 요소를 일일이 구성하지 않고도 Inference 서비스를 간편하게 생성할 수 있게 해주는 Kubernetes Custom Resource이다. HuggingFace 모델을 배포하기 위한 예시 YAML 파일을 제공하며, nodeSelector, 리소스 설정, 토큰 설정 등을 통해 배포를 구성한다.

모델 레포지토리(Repository) 지정: HuggingFace 모델 레포지토리 및 토큰 설정

리소스 할당: CPU, 메모리, GPU 리소스 설정

배포 전략 설정: RollingUpdate 등 배포 전략 설정

비용 절감 및 성능 향상

Friendli Container EKS Add-on은 AI 추론 서비스 운용 비용 절감성능 향상을 동시에 제공한다. Friendli Container의 독자적인 기술을 통해 Inference GPU cost를 50% 이상 절감하고, Throughput을 개선하여 ROI(Return on Investment)를 극대화한다. 또한, AWS 통합 빌링을 통해 비용 관리의 편의성을 제공한다.

즉각적인 비용 절감: GPU cost 50% 이상 절감

간소화된 청구/결제: AWS 통합 빌링

간편한 구독 및 자동 업데이트: AWS Marketplace를 통한 구독 및 자동 업데이트

Amazon EKS에서 Friendli Container로 LLM 추론 최적화하기