구글 TPU, HBM 없이 간다? - 메모리 혁신 분석

구글 TPU V8에서 HBM을 사용하지 않고 새로운 메모리 아키텍처를 적용한다는 루머를 분석하며, HBM 부족 문제를 제기함

광 스위칭(Optical Circuit Switching) 기술을 활용하여 DRAM 기반 메모리 계층화를 시도하며, CXL 프로토콜을 커스터마이징하여 활용

T1, T2 CPU를 분리하여 메모리 관리 전용 CPU를 도입, AI 연산 효율을 높이는 방안 제시

2027년 출시 목표로 HBM을 제거하고 DRAM 캐비닛을 구축하는 새로운 솔루션 개발 중

HBM 미사용 루머의 배경

발표자는 구글 TPU V8에서 HBM을 사용하지 않는다는 루머를 소개하며, HBM(High Bandwidth Memory)의 공급 부족 문제를 지적한다. 인터포저(Interposer) 기술을 통해 HBM과 GPU를 결합하는 기존 방식과 달리, 새로운 솔루션은 DRAM(Dynamic Random Access Memory)을 활용한 메모리 계층화를 시도한다. 발표자는 HBM의 병목 현상과 가격 문제를 해결하기 위한 시도로 분석한다.

광 스위칭(Optical Switching) 기술 도입

영상에서는 광 스위칭(Optical Switching) 기술을 통해 DRAM(Dynamic Random Access Memory) 기반의 메모리 계층화를 구현하려는 시도를 설명한다. CXL(Compute Express Link) 프로토콜을 커스터마이징하여 DRAM에 대한 접근성을 높이고, 광 케이블을 사용하여 데이터 전송 속도를 향상시킨다. 발표자는 이러한 기술을 통해 HBM(High Bandwidth Memory)의 대안을 모색하고, AI 연산 효율을 높일 수 있다고 강조한다.

T1, T2 CPU 분리 및 메모리 관리

발표자는 T1, T2 CPU를 분리하여 메모리 관리를 위한 전용 CPU를 도입하는 방식을 설명한다. T1 CPU는 TPU 메인보드에 위치하여 TPU 간의 인터커넥션을 관리하고, T2 CPU는 메모리, 즉 DRAM(Dynamic Random Access Memory)을 관리한다. 이러한 구조를 통해 AI 연산(AI Computing)에 특화된 효율적인 메모리 관리가 가능하며, 병목 현상(Bottleneck)을 줄일 수 있다고 분석한다.

3-in-1 분할 결합 솔루션의 장점

영상에서는 기존 TPU + HBM 연결 방식과 비교하여, 3-in-1 분할 결합 솔루션의 장점을 강조한다. 이 방식은 계산 효율 손실을 2% 미만으로 줄이며, DRAM(Dynamic Random Access Memory)을 활용하여 HBM(High Bandwidth Memory)의 부족 문제를 해결한다. 발표자는 이러한 구조가 AI 인퍼런스(Inference)에 더욱 적합하며, 서버형 DRAM(Server DRAM)의 수요를 증가시킬 수 있다고 분석한다.