구글, AI 성능 혁신을 위한 8세대 TPU 공개!
구글이 AI 모델 훈련(Training)과 추론(Inference)을 위한 8세대 TPU, TPU 8t와 8i를 발표함
TPU 8t는 대규모 모델 훈련(Massive Model Training)에 특화, TPU 8i는 저지연 추론(Low-Latency Inference)에 최적화됨
커뮤니티에서는 구글의 수직적 통합(Vertical Integration) 전략과 성능 향상에 대한 기대감을 표명함
일부에서는 구글의 모델 지원 정책(Model Deprecation Policy)과 가격 정책(Pricing Policy)에 대한 의문을 제기함
TPU 8t: 훈련 성능 극대화
TPU 8t는 대규모 모델 훈련(Massive Model Training)을 위해 설계되었으며, 이전 세대 대비 3배 향상된 컴퓨팅 성능을 제공한다. 특히, 9,600개의 칩과 2PB의 고대역폭 메모리(High Bandwidth Memory)를 갖춘 슈퍼포드(Superpod)는 121 ExaFlops의 연산 능력(Compute Power)을 지원한다. 또한, 10배 빠른 스토리지 접근 속도와 TPUDirect를 통해 데이터 접근 병목 현상을 해결하여 전반적인 시스템 활용률(System Utilization)을 극대화했다.
TPU 8i: 에이전트 시대의 추론 엔진
TPU 8i는 저지연 추론(Low-Latency Inference)을 위해 설계되었으며, 에이전트 간의 상호 작용에서 발생하는 지연 시간을 최소화한다. 이를 위해 288GB의 고대역폭 메모리(High Bandwidth Memory)와 384MB의 온칩 SRAM을 탑재하여 메모리 병목 현상(Memory Wall)을 해결했다. 또한, Axion Arm 기반 CPU를 사용하여 시스템 성능을 최적화하고, 온칩 Collectives Acceleration Engine(CAE)을 통해 글로벌 연산(Global Operations)의 지연 시간을 최대 5배까지 줄였다.
구글의 수직적 통합 전략
구글은 자체 설계한 Axion ARM 기반 CPU를 사용하여 시스템 전체의 에너지 효율(Energy Efficiency)을 극대화했다. 이는 칩 설계와 호스트 설계를 독립적으로 진행하는 방식으로는 달성하기 어려운 수준이다. 또한, 데이터 센터 설계 단계부터 TPU를 고려하여 전력 효율성(Power Efficiency)을 더욱 향상시켰다. 이러한 수직적 통합(Vertical Integration) 전략은 구글이 AI 하드웨어 시장에서 경쟁 우위를 확보하는 데 기여할 것으로 보인다.
커뮤니티의 다양한 시각
댓글에서는 구글의 TPU가 AI 모델 훈련 및 추론 분야에서 상당한 기술적 진전을 이루었다는 점에 주목한다. 특히, NVIDIA와의 경쟁 구도(Competition with NVIDIA)에서 구글의 경쟁력을 높게 평가하는 의견이 많다. 하지만, 구글의 모델 지원 정책(Model Deprecation Policy)과 가격 정책(Pricing Policy)에 대한 우려도 제기되었다. 또한, TPU의 성능을 실제 벤치마크(Benchmark)를 통해 검증해야 한다는 의견도 존재한다.