Kanana, SFT, RL, Staged RL로 추론 능력 UP!

SFT를 통해 추론 데이터를 학습하여 모델의 추론 능력 향상

GRPO와 PPO 알고리즘 비교, Clipping 기법 조절을 통한 성능 개선

Staged RL 전략으로 수학/코드 데이터셋을 활용, AIME 2025 점수 향상

Two-staged SFT: 데이터 선별과 학습률 최적화

Two-staged SFT 전략은 verify_score와 CV를 활용하여 학습 데이터를 선별한다. 구체적으로, Stage I에서는 적절한 난이도의 데이터를, Stage II에서는 고난이도 데이터를 선택한다. 따라서, 학습률(LR) 최적화를 통해 모델의 성능을 극대화한다.

PPO vs GRPO: 강화 학습 알고리즘 비교

PPO와 GRPO 알고리즘을 비교하여 Clipping Hyperparameter Ablation 실험을 진행했다. GRPO에서 ϵlow를 완화하는 것이 성능 향상에 효과적임을 확인했다. 는 후반 학습에서 조금 더 이점을 보였으며, 평가에서 성능 차이를 보였다.

Kanana, SFT, RL, Staged RL로 추론 능력 UP!

Two-staged SFT: 데이터 선별과 학습률 최적화

PPO vs GRPO: 강화 학습 알고리즘 비교

카카오, Kanana-2 모델로 Agentic AI 성능 대폭 향상

LLM 실전 학습을 위한 시각적 가이드

LLM 텍스트 탐지, 고전 ML로 가능할까?

Staged RL: 수학과 코드 데이터셋 활용

관련 추천 글

카카오, Kanana-2 모델로 Agentic AI 성능 대폭 향상

LLM 실전 학습을 위한 시각적 가이드

LLM 텍스트 탐지, 고전 ML로 가능할까?

LLM 코드 생성, 제약 조건 많아지면 성능 저하?

LLM 코드 생성, 비결정성보다 더 중요한 문제는?

LLM 시대, 프로그래밍은 과연 '무료'였던 시절로 회귀할 수 있을까?

댓글 0

댓글 0

관련 추천 글

카카오, Kanana-2 모델로 Agentic AI 성능 대폭 향상

LLM 실전 학습을 위한 시각적 가이드

LLM 텍스트 탐지, 고전 ML로 가능할까?

LLM 코드 생성, 제약 조건 많아지면 성능 저하?

LLM 코드 생성, 비결정성보다 더 중요한 문제는?

LLM 시대, 프로그래밍은 과연 '무료'였던 시절로 회귀할 수 있을까?

카카오, Kanana-2 모델로 Agentic AI 성능 대폭 향상

LLM 실전 학습을 위한 시각적 가이드

LLM 텍스트 탐지, 고전 ML로 가능할까?