트랜스포머와 RNN을 융합한 7B 오픈 모델 Olmo Hybrid 출시

Olmo Hybrid는 트랜스포머(Transformer) 어텐션(Attention)과 선형 RNN 레이어를 결합한 7B 파라미터(Parameter)의 오픈 모델

Gated DeltaNet과 어텐션 레이어를 3:1 비율로 사용하며, MMLU 벤치마크(Benchmark)에서 Olmo 3와 동등한 정확도를 달성

Olmo 3 대비 49% 적은 토큰(Token)을 사용하며, 모델의 효율성을 높임

Olmo Hybrid의 하이브리드 아키텍처

Olmo Hybrid는 트랜스포머(Transformer)의 어텐션 메커니즘(Attention Mechanism)과 선형 RNN(Recurrent Neural Network) 레이어를 결합하여, 두 아키텍처의 장점을 활용한다. 특히, Gated DeltaNet과 어텐션 레이어를 3:1 비율로 혼합하여, 계산 효율성(Computational Efficiency)을 높였다. 이러한 하이브리드 구조는 모델의 정확도(Model Accuracy)를 유지하면서도, 토큰 사용량을 줄이는 데 기여한다.

MMLU 벤치마크(Benchmark) 성능 분석

본문에 따르면 Olmo Hybrid는 MMLU 벤치마크(Benchmark)에서 Olmo 3와 동등한 정확도를 달성했다. MMLU는 모델의 지식과 추론 능력(Knowledge and Reasoning)을 평가하는 데 사용되는 벤치마크이다. Olmo Hybrid는 Olmo 3와 유사한 성능을 보이면서도, 49% 적은 토큰을 사용함으로써 모델의 효율성(Model Efficiency)을 향상시켰다. 이는 모델 훈련 비용(Model Training Cost) 절감으로 이어진다.

트랜스포머(Transformer) vs RNN: 아키텍처 비교

일반적으로 트랜스포머(Transformer)는 병렬 처리(Parallel Processing)에 유리하여, 대규모 데이터셋(Dataset) 처리에 적합하다. 반면, RNN(Recurrent Neural Network)은 순차적 데이터(Sequential Data) 처리에 강점을 가지며, 시퀀스 데이터(Sequence Data)의 장기 의존성(Long-range Dependency)을 효과적으로 학습할 수 있다. Olmo Hybrid는 두 아키텍처의 장점을 결합하여, 모델의 성능(Model Performance)과 효율성을 모두 개선했다.