40KB로 구현된 Z80 기반 LLM, 1970년대 기술로 AI를?

1970년대 Z80 프로세서에서 실행되는 40KB 크기의 소형 언어 모델(LLM) 개발 소식. 2-bit 양자화 가중치와 트라이그램 해싱 기술을 활용하여 제한된 환경에서 작동하도록 설계됨.

모델은 20 Questions 게임을 플레이하며, 양자화 인식 훈련(QAT)을 통해 Z80의 16비트 연산 한계에 적응. CP/M 에뮬레이터 및 실제 하드웨어에서 실행 가능.

커뮤니티는 레트로 컴퓨팅과 AI 기술의 융합에 흥미를 보이며, 소형 모델의 가능성과 IoT 기기 적용에 대한 기대감을 드러냄.

Z80 아키텍처와 양자화 인식 훈련(QAT)

Z80-μLM은 2-bit 가중치를 사용하여 메모리 제약을 극복한다. 구체적으로, 트라이그램 해싱을 통해 입력 텍스트를 128개의 버킷으로 매핑하여 단어 순서에 덜 의존적인 모델을 구현했다. 따라서, QAT를 통해 16비트 연산 환경에 최적화된 모델을 생성하여 성능 저하를 최소화했다.

트레이드 오프: 성능 vs. 크기

제한된 자원 내에서 성능과 크기 사이의 균형을 맞추기 위한 다양한 기술적 선택이 이루어졌다. 2-bit 양자화는 메모리 사용량을 줄였지만, 모델의 표현력을 제한한다. 반면, 트라이그램 해싱은 오타에 강하고, 단어 순서에 덜 민감하게 반응하도록 설계되었다. 결과적으로, 정확도는 희생되었지만, Z80 환경에서 실행 가능한 모델을 구현했다.

실제 적용 및 확장 가능성

Z80-μLM은 IoT 기기와 같은 제한된 환경에서 LLM을 실행할 수 있는 가능성을 보여준다. 구체적으로, QAT 기술을 활용하여 다른 임베디드 시스템에서도 유사한 모델을 구현할 수 있다. 따라서, 소형 모델의 연구는 자원 제약이 있는 환경에서의 AI 기술 적용에 대한 새로운 가능성을 제시하며, 지속적인 연구가 필요하다.