Kanana, SFT, RL, Staged RL로 추론 능력 UP!

by DD
9개월 전
조회수 2

SFT를 통해 추론 데이터를 학습하여 모델의 추론 능력 향상

GRPOPPO 알고리즘 비교, Clipping 기법 조절을 통한 성능 개선

Staged RL 전략으로 수학/코드 데이터셋을 활용, AIME 2025 점수 향상

Two-staged SFT: 데이터 선별과 학습률 최적화

Two-staged SFT 전략은 verify_scoreCV를 활용하여 학습 데이터를 선별한다. 구체적으로, Stage I에서는 적절한 난이도의 데이터를, Stage II에서는 고난이도 데이터를 선택한다. 따라서, 학습률(LR) 최적화를 통해 모델의 성능을 극대화한다.

PPO vs GRPO: 강화 학습 알고리즘 비교

PPO와 GRPO 알고리즘을 비교하여 Clipping Hyperparameter Ablation 실험을 진행했다. GRPO에서 ϵlow를 완화하는 것이 성능 향상에 효과적임을 확인했다. PPO는 후반 학습에서 조금 더 이점을 보였으며, AIME 2024/2025 평가에서 성능 차이를 보였다.

Staged RL: 수학과 코드 데이터셋 활용

Staged RL 전략은 수학과 코드 데이터셋을 순차적으로 학습하여 추론 능력의 일반화를 시도한다. 수학/코드 데이터셋을 활용하여 AIME 2025 벤치마크 점수를 향상시켰다. 따라서, 이종 도메인 학습을 통해 모델의 일반화 성능을 높였다.

Kanana 언어모델에 추론 기능 붙여보기 (feat. Kanana-1.5)