LLM RL 학습을 위한 고성능 프레임워크

by DD
4개월 전
조회수 16

slime은 LLM(Large Language Model)의 RL(Reinforcement Learning) 스케일링을 위한 프레임워크임

고성능 학습유연한 데이터 생성을 통해 RL 훈련 효율성을 높임

GLM-4, Qwen3, DeepSeek V3, Llama 3 등 다양한 LLM 모델 지원

SGLang과 Megatron을 활용한 고성능 학습

slime은 SGLangMegatron을 연결하여 RL 학습을 효율적으로 수행한다. 특히, Megatron을 통해 분산 학습(Distributed Training)을 지원하며, SGLang을 활용하여 새로운 데이터를 생성하고 Data Buffer에 저장한다. README에 따르면, 이러한 구조는 다양한 학습 모드를 지원하며, 대규모 모델 학습(Large-scale Model Training)에 최적화되어 있다.

유연한 데이터 생성을 위한 아키텍처

slime은 커스텀 데이터 생성 인터페이스(Custom Data Generation Interface)와 서버 기반 엔진을 통해 임의의 학습 데이터 생성 워크플로우를 지원한다. Data Buffer는 프롬프트 초기화, 커스텀 데이터 관리, 롤아웃(Rollout) 생성 방식을 담당한다. 이러한 유연성은 다양한 RL 환경과 문제에 적용 가능하며, 데이터 생성 파이프라인(Data Generation Pipeline)을 쉽게 구축할 수 있도록 돕는다.

다양한 LLM 모델 지원

slime은 GLM-4, Qwen3, DeepSeek V3, Llama 3 등 다양한 LLM 모델을 지원하여 모델 호환성(Model Compatibility)을 확보했다. 이는 slime이 특정 모델에 종속되지 않고, 광범위한 LLM 생태계(LLM Ecosystem)에서 활용될 수 있음을 의미한다. 또한, 새로운 모델이 지속적으로 추가될 수 있도록 설계되어, 확장성(Scalability)을 보장한다.

APRIL을 통한 롤아웃(Rollout) 생성 가속화

APRIL은 slime과 통합되어 RL 학습의 롤아웃 생성 단계를 가속화하는 시스템 레벨 최적화를 제공한다. 요청 오버 프로비저닝(Request Over-provisioning)부분 완료 관리(Partial Completion Management)를 통해 롤아웃 생성 병목 현상을 해결한다. README에 따르면, APRIL은 RL 학습 시간의 90% 이상을 차지하는 병목 현상(Bottleneck)을 해결하여 학습 효율을 극대화한다.

THUDM / slime