LLM 리더보드 1위, 모델 병합 기술의 모든 것!

by DD
2년 전
조회수 17

Open LLM Leaderboard에서 저자가 제출한 CarbonVillain 모델이 1위를 달성함

모델 병합(Model Merge) 기술을 활용하여 저비용으로 LLM 모델을 개발함

SLERP, TIES-Merging, Passthrough 등 다양한 모델 병합 알고리즘 소개 및 성능 비교

모델 병합: LLM 성능 향상의 새로운 지평

모델 병합은 여러 LLM을 결합하여 단일 모델을 만드는 기술이다. SLERP는 구형 선형 보간을 통해 모델 가중치를 부드럽게 보간하며, 모델 크기 감소성능 향상을 동시에 달성한다. 따라서 저비용으로 LLM의 성능을 개선하는 효과적인 방법으로 부상하고 있다.

SLERP, TIES-Merging, Passthrough: 알고리즘 비교 분석

SLERP는 가중치 방향의 변화에 집중하여 모델의 성능을 향상시킨다. TIES-Merging은 중복 매개변수를 제거하고, 기호 충돌을 해결하여 모델 병합의 효율성을 높인다. Passthrough는 레이어 연결을 통해 모델 매개변수를 증가시키며, SOLAR-10.7B와 같은 모델에서 활용된다.

실전 적용 가이드: 리더보드 1위 달성 노하우

리더보드 1위 달성을 위해 SLERP 기반 모델을 활용하고, 테스트 셋 분포 차이를 고려하여 모델을 보완했다. 수학 task(GSM8k) 성능이 낮은 모델에 높은 모델을 병합하여 성능 향상을 이끌어냈다. 따라서, 다양한 모델 병합 알고리즘을 실험하고, 테스트 셋에 맞는 최적의 모델을 선택하는 것이 중요하다.

Open LLM Leaderboard 찍먹 후기