AI 시대, 데이터센터 냉각 기술의 혁신: 공랭식에서 액체 냉각으로!

by DD
3개월 전
조회수 14

AI 모델 학습을 위한 GPU 사용량 증가로 데이터센터의 전력 소비량 급증 및 발열 문제 발생

기존 공랭식(Air Cooling) 방식의 한계로 액체 냉각(Liquid Cooling) 기술이 새로운 해결책으로 부상

액체 냉각은 PUE(전력 사용 효율) 개선 및 초고밀도 환경 대응에 유리하며, 랙(Rack)당 전력 밀도 15kW 이상에서 효과적

액체 냉각 도입 시 초기 투자 비용, 누수 위험 관리 등 새로운 과제 발생

AI 데이터센터는 전력, 물 사용량, 안정성 측면에서 기존 데이터센터와 근본적인 차이를 보임

공랭식(Air Cooling)의 한계와 액체 냉각(Liquid Cooling)의 등장

본문에 따르면, AI 시대의 GPU 전력 소비량 급증으로 인해 기존 공랭식 냉각 방식은 발열 제어(Heat Control)의 한계에 직면했다.

랙(Rack)당 전력 밀도가 10kW를 넘어서면서 핫스팟(Hotspot) 발생 및 서버 성능 저하

공랭식 시스템은 냉각 설비 확장에 따른 공간 및 비용 증가, PUE(Power Usage Effectiveness) 악화

액체 냉각은 공기 대신 물 또는 특수 냉각액을 사용하여 PUE 1.1~1.3 수준으로 개선 가능

액체 냉각은 초고밀도 환경에 대응 가능하며, 랙당 100kW 이상에서도 안정적인 운영을 지원한다.

액체 냉각(Liquid Cooling) 방식의 종류와 특징

글에서는 액체 냉각 기술을 D2C(Direct-to-Chip)와 액침 냉각(Immersion Cooling)으로 구분하여 설명한다.

D2C(Direct-to-Chip): 칩(Chip)에 직접 냉각수를 공급하여 열을 제거하는 방식

액침 냉각(Immersion Cooling): 서버 전체를 특수 용액에 담가 열을 식히는 방식

D2C는 칩 주변 부품 냉각을 위한 보조 공랭 설비가 필요하며, 액침 냉각은 이론상 가장 완벽한 냉각 방식

액체 냉각 방식은 랙(Rack)당 전력 밀도에 따라 적합성이 달라지며, 15kW/Rack 이상에서 액체 냉각 도입을 고려해야 한다.

데이터센터 냉각 기술의 진화: 룸(Room)에서 칩(Chip)으로

본문은 데이터센터 냉각 기술이 열원(Heat Source)에 얼마나 가까워지는가에 따라 진화해 왔다고 설명한다.

1단계: 룸(Room) 단위 냉각 - 항온항습기(CRAC/CRAH)를 사용하여 데이터센터 전체 온도 조절

2단계: 근접 냉각(Close-coupled Cooling) - 랙(Rack) 근처에 냉각 장치를 설치하여 핫스팟(Hotspot) 해결

3단계: 칩(Chip) 단위 냉각(D2C) - 칩에 직접 냉각수를 공급하여 열을 제거

4단계: 액침 냉각(Immersion Cooling) - 서버 전체를 특수 용액에 담가 냉각

냉각 기술의 발전은 PUE(Power Usage Effectiveness) 개선초고밀도 환경 대응을 가능하게 한다.

AI 데이터센터 인프라의 변화: 전력, 물, 안정성

AI 데이터센터는 기존 데이터센터와 비교하여 전력, 물 사용량, 안정성 측면에서 근본적인 변화를 겪는다.

전력: 일반 서버 랙(Rack) 대비 AI 서버 랙의 전력 밀도(Power Density) 급증 (40kW ~ 120kW 이상)

물: 액체 냉각 도입으로 냉각수 사용량 증가 및 WUE(Water Usage Effectiveness) 중요성 부각

안정성: 2N 이중화(Redundancy)를 넘어 3N 또는 다중 전원 공급을 통한 가용성(Availability) 확보

AI 데이터센터는 전력 공급, 설비 시스템, 안정성 기준 등 모든 측면에서 재설계가 필요하다.

랙(Rack)당 전력 밀도에 따른 냉각 솔루션 가이드

글에서는 랙(Rack)당 전력 밀도(kW/Rack)에 따라 적합한 냉각 솔루션을 제시한다.

~15kW/Rack: 기존 공랭식 시스템으로 안정적인 운영 가능

15kW/Rack ~: 액체 냉각(수랭식) 시스템 도입 권장

Vertiv의 가이드라인에 따르면, 랙당 전력 밀도가 15kW를 넘어서는 순간 액체 냉각으로의 전환을 고려해야 함

AI 서버 도입 시 랙(Rack)의 전력 밀도를 정확히 파악하고, 데이터센터 환경에 맞는 최적의 냉각 솔루션을 선택해야 한다.

AI 시대의 데이터센터: GPU의 뜨거운 열을 어떻게 식힐 것인가?