래블업, 업스테이지와 함께 독자 AI 모델 1차 평가 통과! Backend.AI 기반 혁신 공개

정부 주도 '독자 AI 파운데이션 모델' 사업 1차 평가에서 업스테이지 컨소시엄(Upstage Consortium)이 스타트업 연합으로 유일하게 통과

래블업(Lablup)의 Backend.AI 기반 인프라 운영 자동화로 장애 복구 시간 47% 단축 및 학습 기간 40% 단축

솔라 오픈 모델(SOLAR Open Model)은 102B 파라미터의 전문가 혼합 구조(MoE) 모델로, 한국어 성능에 특화

래블업은 Backend.AI를 통해 GPU 자원 관리 및 장애 감지/복구 자동화 시스템(Automated Fault Recovery System) 구축

2차수 사업에서는 멀티모달(Multimodal) 지원 및 자원 선점(Preemption) 기능 추가를 통해 성능 향상 목표

솔라 오픈 모델(SOLAR Open Model)의 기술적 특징

솔라 오픈 모델은 102B 파라미터의 전문가 혼합 구조(MoE, Mixture of Experts) 모델로, 추론 시 12B 파라미터만 활성화되어 연산 효율을 높였다. 한국어 성능에 특화되었으며, GPT-OSS와 유사한 성능을 보인다. 모델 크기를 결정할 때, 비용 효율성(Cost Efficiency)을 고려하여, 100B 모델의 성능을 유지하면서도 추론 속도를 개선하는 방향으로 설계되었다. 학습 데이터는 자체 합성 데이터 생성 파이프라인을 통해 확보했으며, 품질 관리에 집중하여 고품질 데이터를 사용했다. 합성 데이터(Synthetic Data)를 활용하여 데이터 부족 문제를 해결하고, 학습 단계별 최적화를 통해 성능을 극대화했다.

래블업 Backend.AI 기반 GPU 인프라 운영 자동화

래블업은 업스테이지 컨소시엄의 GPU 클러스터에 Backend.AI를 설치하여 학습 시간 손실을 최소화하고 최대 처리량을 확보했다. Backend.AI는 컨테이너 기반으로 환경 격리를 제공하여, 팀 내 개별 작업의 안정성을 보장했다. 특히, Backend.AI FastTrack 3을 통해 GPU 장애 발생 시 자동 복구 시스템을 구축하여, 장애 복구 시간 47% 단축이라는 성과를 달성했다. all-smi라는 자체 개발 시스템 모니터링 도구를 활용하여, NVIDIA GPU뿐 아니라 AMD, Intel XPU 등 다양한 GPU의 지표를 통합적으로 관리했다. 자동 장애 감지 및 복구(Automated Fault Detection and Recovery) 시스템을 통해, 추석 연휴에도 학습이 중단 없이 진행될 수 있었다.

HSDP(Hybrid Sharding Data Parallel)를 활용한 학습 효율 개선

업스테이지는 PyTorch의 컴파일 기능과 체크포인트 최적화를 통해 학습 효율을 개선했다. 대규모 모델 학습에서 핵심적인 문제인 GPU 간 통신 병목(Communication Bottleneck)을 해결하기 위해 HSDP(Hybrid Sharding Data Parallel) 방식을 채택했다. HSDP는 노드 내에서는 FSDP(Fully Sharded Data Parallel)를, 노드 간에는 데이터 병렬 방식을 적용하여 통신 오버헤드를 줄였다. 이로 인해, 480장의 GPU 환경에서 FSDP만 사용했을 때보다 학습 속도를 향상시켰다. 체크포인트(Checkpointing) 간격을 조절하고, 체크포인트 생성 지점을 세밀하게 조율하여, 장애 발생 시 학습 재개 시간을 단축했다. 이러한 최적화 기법들을 통해 이전 대비 학습 처리량을 눈에 띄게 개선했다.

대규모 GPU 클러스터 운영 시 발생 가능한 문제점

대규모 모델 학습 환경에서는 GPU 서버의 장애가 전체 시스템의 유휴 상태를 초래할 수 있다. 분산 스토리지(Distributed Storage)와 학습 전략 간의 시너지 부족으로 인해 성능 저하가 발생할 수 있으며, 대규모 장비 구성에서 예상치 못한 문제들이 발생할 수 있다. 예를 들어, 장비 규모가 커지면서 발생하는 지연 시간 문제로 학습 작업이 중단되는 경우가 발생할 수 있다. 이러한 문제를 해결하기 위해, 래블업은 SK텔레콤, 스토리지 공급사, 업스테이지와 긴밀하게 협력하여 최적화를 진행했다. 장애 감지 및 복구 시스템(Fault Detection and Recovery System) 구축을 통해, 장애 발생 시 중단 시간을 최소화하고 빠르게 복구하는 것이 중요하다.

Backend.AI를 활용한 MLOps 플랫폼 구축 경험

업스테이지는 Backend.AI를 통해 Slurm과 비교하여 초기 진입 장벽을 낮추고, 직관적인 WebUI를 통해 새로운 기능을 쉽게 활용할 수 있었다. 특히, GPU 활용률 모니터링 기능을 통해 유휴 자원 없이 워크로드를 효율적으로 배치하여 전체 클러스터 활용도를 극대화했다. Backend.AI FastTrack 3을 통해 GPU 장애 발생 시 자동 재시작 기능을 구현하여, 장애로 인한 유휴 시간(Idle Time)을 줄였다. 2차수 사업에서는 컨소시엄 파트너들의 피드백을 반영하여 Backend.AI를 개선하고, 자원 선점(Preemption) 기능을 추가하여 학습 효율을 더욱 높일 예정이다. 자원 선점(Preemption) 기능을 통해, 우선순위가 높은 작업에 GPU 자원을 할당하고, 덜 중요한 작업의 자원을 회수하여 학습 효율을 높일 계획이다.