국내 최초 MoE 모델 'Kanana-MoE' 개발 성공!

Mixture of Experts (MoE) 모델 'Kanana-MoE'는 3B 활성 파라미터로 8B Dense 모델 성능 달성

Upcycling 기법을 활용, 기존 Dense 모델을 MoE로 변환하여 학습 시간과 비용 절감

Staged RL 및 Grouped GEMM 도입으로 Post-Training 효율성 및 성능 극대화

MoE 아키텍처 심층 분석

Mixture of Experts (MoE) 모델은 Dense 모델의 MLP 레이어를 대체한다. 구체적으로, Router가 입력에 적합한 Expert를 선택하고, 선택된 Expert들의 출력을 가중 합산한다. 따라서, Fine-grained MoE 구조는 더 많은 Expert를 활용하여 모델 성능 향상을 이끌어낸다.

Upcycling 기반 Pre-Training 전략

Dense 모델을 Upcycling하여 MoE 모델을 구축, 학습 효율을 높였다. Kanana-Nano-1.5-3B 모델을 기반으로 Fine-grained MoE를 구성했다. 반면, 데이터 혼합(Data Mixture)을 MoE 모델에 최적화하여 학습 성능을 개선했다. 결과적으로, 활성 파라미터 수 감소와 성능 향상을 동시에 달성했다.

Post-Training 최적화 및 결과

Staged RL 파이프라인을 통해 RLVR과 RLGRM을 분리하여 훈련했다. Grouped GEMM 도입으로 Post-training의 병목 현상을 해결했다. 따라서, 훈련 시간 단축과 성능 향상을 동시에 달성했다. 또한, On-policy distillation을 통해 모델 성능을 더욱 향상시켰다.