Gemma 4, MTP 드래프터로 추론 속도 3배 향상!

Gemma 4 모델의 추론 속도 향상을 위해 MTP(Multi-Token Prediction) 드래프터를 출시

Speculative Decoding 아키텍처를 활용하여 3배 빠른 속도를 달성하고, 출력 품질 저하 없음

개발자는 응답성 개선, 로컬 개발 환경 가속화, 온디바이스 성능 향상 등의 이점 획득

MTP 드래프터는 Hugging Face, Kaggle 등에서 모델 가중치 다운로드 가능

MTP 드래프터의 작동 원리

MTP(Multi-Token Prediction) 드래프터는 Speculative Decoding 기술을 활용하여 LLM 추론의 병목 현상을 해결한다. 기존 LLM은 토큰을 순차적으로 생성하는 반면, MTP는 경량화된 드래프터 모델(Drafter Model)을 사용하여 여러 토큰을 미리 예측한다.

드래프터(Drafter): 타겟 모델보다 빠르게 여러 토큰을 예측

타겟 모델(Target Model): 드래프터가 예측한 토큰을 검증

병렬 처리(Parallel Processing): 타겟 모델은 제안된 모든 토큰을 병렬로 검증

타겟 모델이 드래프트에 동의하면 전체 시퀀스를 한 번의 순방향 패스로 수용하여, 단일 토큰 생성 시간 안에 여러 토큰을 생성한다.

성능 향상 및 벤치마크 분석

MTP 드래프터는 최대 3배의 속도 향상을 제공하며, 출력 품질 저하 없이 추론 속도를 개선한다. 벤치마크는 LiteRT-LM, MLX, Hugging Face Transformers, vLLM 등 다양한 환경에서 진행되었다.

토큰 생성 속도(Tokens-per-second): 하드웨어(Hardware)에 따라 최대 3배 향상

NVIDIA RTX PRO 6000: 동일한 출력 품질 유지

Apple Silicon: 배치 사이즈(Batch Size) 4~8에서 최대 2.2배 속도 향상

MTP 드래프터는 메모리 대역폭(Memory Bandwidth)에 의해 제한되는 LLM 추론의 병목 현상을 해결하여, 전반적인 응답성을 향상시킨다.

기존 LLM 추론 방식과의 비교

기존 LLM 추론은 단일 토큰을 생성하는 데 많은 시간을 소모하여, 메모리 대역폭(Memory Bandwidth) 병목 현상을 발생시킨다. MTP 드래프터는 이러한 비효율성을 해결하기 위해 Speculative Decoding 방식을 채택했다.

기존 방식: 단일 토큰 생성에 모든 연산 자원 할당

MTP 방식: 경량 드래프터로 여러 토큰 예측 후 타겟 모델 검증

결과: 단일 토큰 생성 시간 안에 여러 토큰 생성 가능

MTP는 계산 자원 활용도(Compute Utilization)를 높여, 특히 소비자용 하드웨어(Consumer-grade Hardware)에서 추론 속도를 크게 향상시킨다.

MTP 드래프터의 생태계 및 활용

MTP 드래프터는 다양한 개발 환경에서 활용 가능하며, Gemma 4 모델과 함께 제공된다. 개발자는 Hugging Face, Kaggle 등에서 모델 가중치를 다운로드하여, Transformers, MLX, vLLM, SGLang, Ollama 등과 같은 도구에서 MTP를 사용할 수 있다.

활용 분야: 코딩 어시스턴트, 자율 에이전트, 온디바이스(On-device) 애플리케이션

지원 플랫폼: Google AI Edge Gallery (Android, iOS)

오픈 소스 라이선스(Open Source License): Apache 2.0

MTP 드래프터는 개발자가 응답성이 뛰어난 AI 애플리케이션(AI Application)을 구축하는 데 필요한 성능을 제공한다.

MTP 드래프터의 기술적 세부 사항

MTP 드래프터는 성능 향상을 위해 여러 아키텍처적 개선 사항을 포함한다. 드래프트 모델은 타겟 모델의 활성화를 활용하고, KV 캐시(KV Cache)를 공유하여 컨텍스트 재계산 시간을 절약한다. 또한, E2B 및 E4B 엣지 모델(Edge Model)의 경우, 임베더(Embedder)에 효율적인 클러스터링 기술을 적용하여 생성 속도를 더욱 가속화했다.

KV 캐시 공유(KV Cache Sharing): 컨텍스트 재계산 시간 절약

임베더 클러스터링(Embedder Clustering): E2B, E4B 모델의 생성 속도 향상

하드웨어 최적화(Hardware Optimization): Apple Silicon, NVIDIA A100 등 특정 하드웨어에 대한 최적화

이러한 기술적 개선을 통해 MTP 드래프터는 성능과 효율성(Efficiency)을 동시에 달성한다.