GPT 모델 최적화: KV Cache, 양자화, DeepSeek의 혁신
by DD
8개월 전
조회수 6
KV Cache 기법을 통해 GPT 모델의 불필요한 연산을 줄여 계산 효율을 높임
양자화 기법을 활용하여 모델의 메모리 사용량을 줄이고 성능을 유지함
DeepSeek는 KV Cache를 개선하여 메모리 사용량 57배 감소 및 성능 향상을 달성
KV Cache: 메모리 효율성을 위한 핵심 기술
KV Cache는 Masked Self Attention에서 다음 단어 예측을 위해 Q, K, V 중 KV를 캐싱하여 중복 연산을 줄인다. 구체적으로, 기존 임베딩과 QKV 계산의 마지막 행만 계산하여 메모리 사용량 감소를 달성한다. 따라서, 모델 크기 증가에 따른 메모리 문제를 해결하고, 추론 속도 향상에 기여한다.
양자화: 모델 크기 축소와 성능의 균형
양자화는 32비트 부동 소수점으로 표현된 모델 가중치를 낮은 비트 수로 표현하여 메모리 사용량을 줄이는 기술이다. 4비트 양자화를 예로 들면, 모델의 RAM 사용량 감소를 가져온다. 반면, 정확도 손실이라는 트레이드 오프가 발생하지만, 모델 크기 증가에 따른 문제를 해결하고, 계산 효율성을 높이는 데 기여한다.
DeepSeek의 혁신: KV Cache 최적화
DeepSeek는 KV Cache를 개선하기 위해 Latent Vector를 활용하여 KV 계산을 최적화했다. 구체적으로, Latent Vector를 통해 KV Cache를 57배 개선하고, MultiHead가 V값을 공유하도록 설계했다. 따라서, 메모리 사용량 감소와 함께 모델 성능 향상을 동시에 달성하며, LLM 모델 최적화의 새로운 방향을 제시했다.