자체 데이터 센터 구축, 클라우드보다 5배 저렴!

by DD
4개월 전
조회수 8

comma.ai는 자체 데이터 센터 구축을 통해 클라우드 비용 절감(Cost Reduction)유연성 확보(Flexibility)를 달성함

데이터 센터는 전력, 냉각, 서버, 스토리지, 네트워크 등 다양한 인프라 요소로 구성됨

Slurm을 활용한 워크로드 관리, minikeyvalue 기반의 분산 스토리지 시스템 구축

Pytorch를 활용한 분산 훈련, 자체 개발한 miniray를 통한 작업 스케줄링

클라우드 vs 자체 데이터 센터: 비용 및 엔지니어링 관점

comma.ai는 자체 데이터 센터 구축을 통해 클라우드 대비 5배 이상 비용 절감(Cost Savings)을 달성했다고 주장한다. 클라우드는 초기 진입 장벽이 낮지만, 장기적으로는 비용 증가 및 종속성 문제를 야기할 수 있다. 자체 데이터 센터는 전력, 냉각, 서버 유지보수 등 다양한 엔지니어링 과제를 수반하지만, 데이터 격리 아키텍처(Data Isolation Architecture)를 통해 보안 및 제어 권한을 강화할 수 있다.

데이터 센터 인프라 구성 요소 분석

데이터 센터는 전력 공급, 냉각 시스템, 서버, 스토리지, 네트워크 등 다양한 요소로 구성된다. comma.ai는 450kW의 전력을 사용하며, 샌디에이고의 높은 전력 비용(40c/kWh)으로 인해 상당한 비용을 지출한다. 냉각 시스템은 외부 공기를 활용하여 전력 소비를 줄이고 있으며, 600개의 GPU를 탑재한 자체 제작 서버를 사용한다. 데이터 격리 아키텍처(Data Isolation Architecture)를 위해 4PB의 SSD 스토리지를 구축하고, 100Gbps 네트워크 스위치를 활용한다.

분산 시스템 및 워크로드 관리

comma.ai는 Slurm을 사용하여 컴퓨팅 노드를 관리하고, Pytorch를 활용한 분산 훈련을 수행한다. 또한, 자체 개발한 miniray를 통해 다양한 작업을 스케줄링하며, minikeyvalue를 사용하여 분산 스토리지를 구축한다. 특히, miniray는 유휴 머신에서 임의의 파이썬 코드를 실행할 수 있도록 설계되어, 작업의 유연성을 높인다. 데이터 미저장 정책(Zero-Retention Policy)을 통해 모델 및 훈련 메트릭을 저장한다.

코드 관리 및 배포 전략

comma.ai는 모든 코드를 3GB 미만의 단일 NFS 모노레포(NFS Monorepo)로 관리한다. 훈련 작업 또는 miniray 분산 작업이 시작될 때, 로컬 모노레포를 공유 NFS 드라이브에 캐싱하여 코드 일관성을 유지한다. 이 방식은 코드 동기화 문제를 해결하고, 패키지 버전 불일치로 인한 문제를 방지한다. 이 프로세스는 약 2초가 소요되며, 개발 생산성을 향상시킨다.

Owning a $5M data center