구글 Gemma 4, 애플 실리콘에서 미친 성능!

by DD
1개월 전
조회수 4

구글이 Gemma 4 모델을 출시하며, 다양한 크기의 모델과 향상된 성능을 공개함.

애플 실리콘(M5 Pro, M4 Pro)에서 Gemma 4 모델 구동 시 MLX 프레임워크를 활용하여 성능을 극대화함.

온디바이스 AI 구현을 위한 모델 크기별 성능 비교 및 실제 구동 속도 데이터를 제시함.

2B, 8B, 20B, 70B 파라미터 모델의 토큰 처리 속도 및 효율성을 분석함.

Gemma 4 모델 아키텍처 및 성능

구글은 Gemma 4 모델을 출시하며 20억 개부터 700억 개까지 다양한 파라미터 규모를 제공한다고 발표함. 특히 2B 모델은 128K 토큰 컨텍스트 길이를 지원하며, 이는 이전 모델 대비 컨텍스트 처리 능력이 획기적으로 향상되었음을 시사함. 발표자는 2B 모델이 125 토큰/초, 8B 모델이 70 토큰/초의 처리 속도를 보인다고 언급하며, 이는 온디바이스 AI 환경에서 실시간 응답성을 확보하는 데 중요한 지표임.

애플 실리콘에서의 MLX 활용

영상에서는 애플 실리콘(M5 Pro, M4 Pro) 환경에서 MLX 프레임워크를 사용하여 Gemma 4 모델을 구동하는 과정을 상세히 보여줌. MLX는 Metal API를 기반으로 GPU 가속을 활용하여 AI 모델 추론 속도를 크게 향상시키는 라이브러리임. 발표자는 M4 Pro 맥미니에서 2B 모델을 125 토큰/초, M5 Pro 맥북프로에서 2B 모델을 150 토큰/초로 구동하는 성능을 시연하며, MLX를 통한 최적화가 온디바이스 AI 성능을 극대화함을 강조함.

모델 크기별 성능 및 효율성 비교

발표자는 2B, 8B, 20B, 70B 파라미터 모델의 성능을 토큰당 처리 시간 기준으로 비교 분석함. 2B 모델은 8ms/token, 8B 모델은 14ms/token, 20B 모델은 30ms/token으로, 모델 규모가 커질수록 처리 시간은 늘어나지만 전반적인 효율성은 유지됨을 보여줌. 특히 2B 모델은 48GB 메모리 환경에서 128K 컨텍스트를 처리할 수 있어, 모바일 및 엣지 디바이스에서의 활용 가능성을 높임.

실제 구동 환경 및 데이터셋

실제 테스트는 M5 Pro 16GB RAM, M4 Pro 64GB RAM이 탑재된 맥북프로 및 맥미니에서 진행되었으며, 114K 토큰의 긴 텍스트를 입력하여 모델의 컨텍스트 처리 능력을 검증함. 2B 모델은 50초, 8B 모델은 1분 40초가 소요되었고, 이는 긴 문서 요약이나 복잡한 질의응답과 같은 작업에서 모델의 실용성을 보여주는 결과임. 발표자는 MLX 캐싱 전략이 이러한 성능 향상에 기여한다고 설명함.

애플 실리콘의 MLX 지원 강화

영상은 애플 실리콘의 뉴럴 엔진(Neural Engine) 및 GPU 성능을 최대한 활용하기 위한 MLX 프레임워크의 중요성을 부각함. MLX는 애플 하드웨어에 최적화된 연산 라이브러리로, 개발자들이 복잡한 AI 모델을 쉽게 배포하고 실행할 수 있도록 지원함. 발표자는 M4 Pro 맥미니에서 2B 모델을 70 토큰/초, M5 Pro 맥북프로에서 150 토큰/초를 달성하는 등, 애플의 자체 AI 생태계 강화와 함께 Gemma 4 모델의 온디바이스 추론 성능이 크게 향상되었음을 시사함.

구글, 미친 성능의 무료 AI gemma4 출시... M5 Pro 맥북프로, M4 Pro 맥미니로 돌려보니 ㄷㄷㄷ | MLX 지원 애플실리콘 성능 대폭 향상