Amazon SageMaker HyperPod로 ZERO 모델 학습, 비용 절감과 성능 향상!

by DD
1개월 전
조회수 10

슈퍼브에이아이는 비전 파운데이션 모델 ZERO를 Amazon SageMaker HyperPod를 활용하여 학습, 멀티모달 그라운딩(Multi-modal Grounding) 기술을 통해 제로샷(Zero-shot) 객체 탐지 구현

Amazon SageMaker HyperPod의 유연한 인스턴스 크기 조절 및 최신 AMI(Amazon Machine Image) 지원으로 비용 효율성(Cost Efficiency) 및 개발 생산성(Development Productivity) 향상

Training Plan을 활용, 고성능 GPU 클러스터 예약 및 저렴한 인스턴스 리허설을 통해 학습 시간 단축(Training Time Reduction) 및 안정성 확보

S3 데이터 사전 로드(Pre-loading) 및 리허설(Rehearsal)을 통해 학습 시간(Training Time)을 수 시간 단축하고, 치명적인 버그(Bug)를 사전에 발견

Amazon SageMaker HyperPod의 유연한 인프라 구성

본문에서는 Amazon SageMaker HyperPod가 제공하는 유연한 인스턴스 크기 조절(Flexible Instance Sizing) 기능을 강조한다. 기존 클라우드 환경의 단일 노드 또는 연 단위 플랜의 제약에서 벗어나, 개발자는 학습 시나리오(Training Scenario)에 따라 인스턴스 크기를 자유롭게 변경할 수 있다.

EFA(Elastic Fabric Adapter) 지원: 고성능 노드 사용 시 EFA(Elastic Fabric Adapter)와 같은 고성능 네트워크가 기본 탑재되어 인프라 구성(Infrastructure Configuration)의 편의성을 높임

최신 AMI(Amazon Machine Image): 오래된 드라이버 및 운영 체제(OS)를 사용하는 타사 클라우드와 달리, HyperPod는 최신 드라이버와 OS를 제공하여 종속성 관리(Dependency Management)의 부담을 줄임

결과적으로, 슈퍼브에이아이는 HyperPod의 유연성을 통해 비용 효율성(Cost Efficiency)을 확보하고, 최신 기술을 안정적으로 활용할 수 있었다.

데이터 준비 및 S3 최적화

슈퍼브에이아이는 실제 배포 성능을 향상시키기 위해 훈련 데이터(Training Data)의 품질과 효율적인 데이터 관리에 집중했다. 특히, Hugging Face Datasets 라이브러리를 활용하여 데이터셋을 구성하고, S3 업로드 과정에서 최적화를 수행했다.

데이터 선별: 10억 장의 원시 데이터 중, 산업 현장에 의미 있는 400만 장의 고품질 데이터(High-quality Data)를 선별하여 ZERO 모델 학습에 활용

Arrow 파일 형식: Hugging Face Datasets 라이브러리가 지원하는 Arrow 파일 기반 데이터셋 포맷(Arrow File-based Dataset Format)을 사용하여 데이터셋을 1G 단위의 샤드로 분할, 데이터 로딩 속도(Data Loading Speed) 향상

S3 sync 명령어: AWS CLI v2의 s3 sync 명령어를 사용하여 S3에 데이터를 업로드, 네트워크 대역폭(Network Bandwidth)을 최대한 활용

이러한 노력들을 통해, 슈퍼브에이아이는 데이터 준비 시간을 단축하고, 학습 효율을 극대화했다.

Training Plan을 활용한 클러스터 관리

슈퍼브에이아이는 Amazon SageMaker Training Plan 기능을 활용하여 대규모 학습을 위한 고성능 GPU 클러스터를 효율적으로 관리했다. Training Plan을 통해 클러스터 사용을 예약하고, 저렴한 인스턴스를 활용한 리허설(Rehearsal) 단계를 거쳐 학습 효율을 높였다.

Training Plan 예약: 고성능 네트워크로 연결된 대형 클러스터 사용을 예약, 학습 기간(Training Period) 확보

리허설 단계: 저렴한 GPU 인스턴스를 활용하여 학습 파라미터 튜닝 및 데이터 무결성 검증, 학습 중단(Training Halt) 방지

인스턴스 교체: 리허설 인스턴스 제거 후, Training Plan으로 예약한 고성능 GPU 클러스터로 전환, 학습 시간(Training Time) 단축

이러한 과정을 통해, 슈퍼브에이아이는 비용 효율적인 학습 환경을 구축하고, 학습 과정의 안정성을 확보했다.

FSx for Lustre와 HyperPod 연동

슈퍼브에이아이는 FSx for Lustre를 활용하여 대규모 데이터셋의 입출력 성능을 최적화하고, HyperPod 클러스터와의 통합을 통해 학습 효율을 극대화했다. FSx와 HyperPod의 연동은 데이터 접근 속도를 향상시키고, 학습 시간을 단축하는 데 기여했다.

FSx for Lustre: 고성능 파일 시스템(High-performance File System)을 사용하여 데이터 처리량(Throughput) 극대화

데이터 사전 로드: 리허설 단계에서 FSx에 데이터를 미리 로드하여, 본 학습 시 데이터 로딩 시간을 단축

S3 데이터 매핑: S3 버킷의 데이터를 FSx 내 특정 경로에 매핑하여, 데이터 접근 편의성(Data Access Convenience) 향상

FSx와 HyperPod의 효율적인 연동을 통해, 슈퍼브에이아이는 대규모 데이터셋 학습 환경에서 병목 현상(Bottleneck)을 해결하고, 학습 시간을 단축했다.

비용 분석 및 효과 정리

슈퍼브에이아이는 Amazon SageMaker HyperPod를 활용하여 비용 효율적인 학습 환경을 구축하고, 개발 생산성을 향상시켰다. HyperPod의 유연한 인프라 구성과 Training Plan, 리허설 단계를 통해 비용 절감과 학습 효율을 동시에 달성했다.

비용 절감: 저렴한 인스턴스를 활용한 리허설(Rehearsal)을 통해, 고성능 인스턴스 유휴 시간(Idle Time) 최소화

학습 시간 단축: S3에서 FSx로의 데이터 사전 로드(Pre-loading)를 통해, 데이터 로딩 시간(Data Loading Time) 절약

개발 생산성 향상: 리허설을 통해 치명적인 트레이닝 스크립트 버그(Training Script Bug)를 사전에 파악하고 수정

결과적으로, 슈퍼브에이아이는 HyperPod를 통해 인프라 운영 부담(Infrastructure Operation Burden)을 최소화하고, 모델 성능 고도화에 집중할 수 있었다.

Amazon SageMaker HyperPod로 슈퍼브에이아이의 비전 파운데이션 모델 ‘ZERO’ 효율적으로 대규모 분산 학습하기