vLLM, DeepSeek 모델로 H200 GPU에서 놀라운 성능 기록!

vLLM이 DeepSeek 671B 모델을 사용하여 H200 GPU에서 2.2k 토큰/초(tokens/s)의 처리 속도를 달성함

벤치마크 결과에 대한 비용 효율성(Cost Efficiency) 분석이 이어졌으며, 토큰당 비용을 추산함

커뮤니티에서는 성능 향상(Performance Gains)에 대한 기대와 함께 다양한 설정 비교의 부재를 지적함

vLLM 개발자(Developer)가 직접 등장하여 질의응답(Q&A)을 진행하며 기술적 깊이를 더함

H200 GPU 기반 vLLM 성능 분석

vLLM은 DeepSeek 671B 모델을 사용하여 H200 GPU에서 2.2k 토큰/초의 처리 속도를 기록했다. dust42의 댓글에 따르면, 16개의 H200 GPU를 사용한 시스템의 총 비용은 약 75만 달러로 추정된다. 이를 기반으로 토큰당 비용을 계산한 결과, 약 0.25달러로 추산된다. 이는 DeepSeek API 가격과 유사한 수준이다. GPU 성능(GPU Performance)과 비용 효율성(Cost Efficiency)을 동시에 고려한 벤치마크 결과로 볼 수 있다.

비용 분석 및 지속 가능성 논의

dust42는 벤치마크 결과를 바탕으로 AI 모델 서빙(Serving)의 지속 가능성(Sustainability)에 대한 의문을 제기했다. 3년 동안의 감가상각을 고려할 때, 토큰당 비용은 약 4달러로 계산될 수 있다. 하지만, 단일 GPU의 성능을 고려하면 토큰당 비용은 0.25달러로 낮아진다. 전력 비용(Electricity Costs)은 전체 비용의 10% 미만으로 추정되지만, 유럽과 같이 전력 비용이 높은 지역에서는 더 큰 비중을 차지할 수 있다.

성능 향상에 대한 기대와 기술적 과제

kingstnap은 vLLM의 성능 향상에 주목하며, AI 모델의 비용 감소(Cost Reduction)에 대한 기대를 표명했다. rbanffy는 H200 GPU에서 2k 토큰/초의 성능은 Cerebras 하드웨어에서 기대할 수 있는 수준이라고 언급하며, vLLM의 성능에 대한 놀라움을 표현했다. 이는 vLLM의 최적화(Optimization)가 상당한 수준임을 시사한다.

다양한 설정 비교의 부재와 벤치마크의 중요성

Palmik은 다양한 설정과 엔진 간의 비교 벤치마크 부재에 대한 아쉬움을 표했다. TP, DP, PP, PD, spec. decoding 등 다양한 튜닝 요소가 존재하며, 최적의 설정은 모델, 환경, 트래픽에 따라 달라진다. 오픈소스 엔진(Open Source Engine) 간의 직접적인 비교가 부족하다는 점을 지적하며, 벤치마크의 중요성을 강조했다. 벤치마크 부재(Absence of Benchmarks)는 기술 선택의 어려움을 야기할 수 있다.