LLM, 레이어 복제로 추론 능력 2배 향상?

by DD
2개월 전
조회수 18

LLM(Large Language Model)의 특정 레이어를 복제하여 모델의 추론 능력을 향상시키는 새로운 기술이 제시됨

Devstral-24B 모델에서 논리적 추론 능력이 245% 향상되는 등 긍정적 결과가 나타남

레이어 복제 패턴에 따라 수학, 감성 추론 등 모델의 특성이 변화하는 현상 발견

커뮤니티에서는 벤치마크의 신뢰성 및 실제 성능 향상에 대한 의문 제기

기술의 실용성 및 다른 모델로의 확장 가능성에 대한 논의가 진행됨

트랜스포머(Transformer) 내부의 '추론 회로(Reasoning Circuits)'

본 연구는 트랜스포머(Transformer) 모델 내부에 '추론 회로(Reasoning Circuits)'가 존재한다는 가설을 제시한다. 구체적으로, 모델의 특정 레이어 블록을 복제하면 해당 회로를 두 번 통과하게 되어 추론 능력이 향상된다는 것이다. Devstral-24B 모델에서 레이어 12-14를 복제한 결과, 논리적 추론 점수가 0.22에서 0.76으로 크게 상승했다. 이는 모델의 내부 구조(Internal Structure)에 대한 새로운 통찰을 제공한다.

레이어 복제 패턴에 따른 모델의 '모드(Mode)' 변화

흥미로운 점은 레이어 복제 패턴에 따라 모델의 인지적 특성이 달라진다는 것이다. 예를 들어, 레이어를 두 번 복제하면 수학적 능력이 향상되고, 세 번 복제하면 감성 추론 능력이 높아진다. 이러한 현상은 동일한 가중치를 가진 모델에서도 나타나며, VRAM 사용량(VRAM Usage)의 증가는 미미하다. 이는 모델의 동적 아키텍처(Dynamic Architecture)를 활용하는 새로운 접근 방식을 제시한다.

커뮤니티의 벤치마크 신뢰성 및 실용성에 대한 의문

커뮤니티에서는 제시된 벤치마크 결과의 신뢰성에 대한 의문을 제기하며, 실제 환경(Real-world Environment)에서의 성능 검증을 요구한다. 특히, 특정 벤치마크에서만 성능이 향상되고 다른 작업에서는 오히려 저하될 수 있다는 점을 지적한다. 또한, 레이어 복제가 모델의 일반화 능력에 미치는 영향에 대한 추가적인 연구가 필요하다는 의견이 제시된다.

기술적 구현 및 확장성

본 기술은 GGUF 모델에서 레이어 복제를 수행하는 툴킷을 제공하며, 다양한 모델에 적용할 수 있는 가능성을 제시한다. 'sweep.py' 스크립트를 통해 최적의 레이어 구성을 탐색하고, 'layer_path.py' 스크립트를 사용하여 레이어 복제를 적용할 수 있다. 하지만, 모델의 구조에 따라 최적의 레이어 구성이 달라지므로, 광범위한 실험이 필요하다는 점이 강조된다.

기존 연구와의 비교 및 향후 전망

본 연구는 기존의 모델 가지치기(Model Pruning) 연구와 유사한 맥락에서 이해될 수 있다. 즉, 모델의 불필요한 부분을 제거하는 대신, 핵심적인 부분을 강조하는 방식이다. 향후 연구에서는 레이어 복제와 미세 조정(Fine-tuning)을 결합하여 모델의 성능을 극대화하는 방안이 모색될 수 있다. 또한, 다양한 모델 아키텍처에 대한 적용 가능성을 탐구할 필요가 있다.

Show HN: Duplicate 3 layers in a 24B LLM, logical deduction .22→.76. No training