자체 데이터 센터 구축, 클라우드보다 저렴할까?

by DD
4개월 전
조회수 26

클라우드 컴퓨팅(Cloud Computing)의 높은 비용과 종속성을 탈피하여, 자체 데이터 센터 구축을 통해 비용 절감(Cost Reduction)자율성 확보(Autonomy)를 주장함.

4PB SSD 스토리지(4PB SSD Storage), 600개의 GPU, 3개의 100Gbps 스위치 등 자체 구축한 데이터 센터의 구체적인 하드웨어 및 소프트웨어 구성(Hardware and Software Configuration)을 상세히 설명함.

전력 비용(Power Cost), 냉각 시스템(Cooling System) 등 데이터 센터 운영의 현실적인 문제와 해결 방안을 제시하며, 엔지니어링적 도전(Engineering Challenges)에 대한 통찰력을 제공함.

커뮤니티에서는 자체 하드웨어 운영의 어려움과 장점을 회상하며, 클라우드와 자체 구축 사이의 균형(Balance)에 대한 다양한 의견을 제시함.

클라우드 컴퓨팅(Cloud Computing) vs 자체 데이터 센터 구축의 비용 비교

게시물에서는 클라우드 컴퓨팅의 높은 비용 문제를 지적하며, 자체 데이터 센터 구축을 통해 비용 절감(Cost Reduction)이 가능하다고 주장한다. 특히, 500만 달러의 자체 데이터 센터 구축 비용이 클라우드 환경에서는 2500만 달러 이상 소요될 수 있다는 점을 강조한다. 하지만, 전력 비용(Power Cost)과 냉각 시스템(Cooling System) 운영의 어려움, 그리고 인프라 관리(Infrastructure Management)에 필요한 전문 지식 습득의 필요성을 간과해서는 안 된다.

데이터 격리 아키텍처(Data Isolation Architecture) 및 스토리지 시스템 설계

데이터 센터는 4PB의 SSD 스토리지를 갖춘 Dell 머신(R630 및 R730)을 사용하며, 데이터 미저장 정책(Zero-Retention Policy)을 통해 모델과 훈련 데이터를 저장한다. 주 스토리지 어레이는 비중복 방식으로 설계되어 각 노드가 네트워크 대역폭을 최대한 활용할 수 있도록 한다. 또한, 300TB의 비중복 어레이를 중간 결과 캐싱에 사용하고, 훈련된 모델과 메트릭을 저장하기 위해 중복 mkv 스토리지 어레이를 활용한다. 이러한 설계는 데이터 접근 속도(Data Access Speed)데이터 무결성(Data Integrity)을 동시에 고려한 것이다.

분산 훈련(Distributed Training) 환경 구축

게시물에서는 Pytorch를 활용한 분산 훈련 환경 구축에 대해 설명하며, torch.distributed FSDP를 사용하여 여러 GPU 노드에서 모델을 훈련한다. 또한, 자체 개발한 훈련 프레임워크를 통해 훈련 루틴을 단순화하고, 실험 추적 서비스(wandb 또는 tensorboard와 유사)를 통해 실험을 관리한다. Slurm을 사용하여 컴퓨팅 노드를 관리하고, Pytorch 훈련 작업과 miniray 작업을 예약한다. 이러한 시스템은 대규모 모델 훈련(Large-Scale Model Training)을 효율적으로 지원한다.

Miniray를 활용한 분산 컴퓨팅(Distributed Computing)

게시물에서는 miniray라는 경량 오픈 소스 작업 스케줄러를 사용하여 유휴 머신에서 임의의 파이썬 코드를 실행하는 방법을 설명한다. miniray는 dask의 단순화된 버전으로, 특히 단순성에 초점을 맞추고 있다. Slurm은 유휴 머신을 miniray 작업자로 예약하고, 모든 작업 정보는 중앙 Redis 서버에 저장된다. miniray는 대규모 병렬 작업(Large-Scale Parallel Tasks)을 효율적으로 실행할 수 있도록 설계되었으며, 모델 추론을 위해 triton 추론 서버를 활용한다.

Don't rent the cloud, own instead

댓글 0

첫 번째 댓글을 남겨보세요!