1976년 CPU에서 구동되는 2비트 AI 모델, 가능할까?

1976년 출시된 Z80 프로세서에서 실행되는 2비트 양자화 언어 모델 (Z80-μLM)이 공개되어 화제임.

40KB 크기의 바이너리 파일로, 단어 순서에 덜 민감하며, 20 Questions 게임과 같은 대화형 기능을 제공함.

개발자들은 소형 모델의 가능성과 레트로 컴퓨팅에 대한 관심과 함께, 모델의 한계와 학습 방법에 대한 질문을 제기함.

Z80-μLM 아키텍처 심층 분석

Z80-μLM은 트라이그램 해싱을 사용하여 입력 텍스트를 128개의 버킷으로 매핑한다. 구체적으로, 각 버킷은 단어 순서에 독립적인 추상적인 표현을 제공한다. 따라서, 모델은 단어의 의미보다는 입력의 형태에 반응하며, 2비트 가중치를 사용하여 메모리 사용량을 최소화한다. 결과적으로, 16비트 정수 연산을 통해 Z80 프로세서에서 효율적으로 실행된다.

2비트 양자화의 장단점

2비트 양자화는 메모리 제약을 극복하기 위한 핵심 기술이다. 반면, 모델의 표현력을 제한하며, QAT (Quantization-Aware Training)를 통해 훈련해야 한다. 구체적으로, 가중치는 {-2, -1, 0, +1} 값으로 제한되어 있으며, 곱셈-누산 연산은 16비트 정수 연산을 사용한다. 따라서, 오버플로우를 방지하고, Z80의 16비트 레지스터를 활용한다.

실제 적용 및 확장 가능성

Z80-μLM은 레트로 컴퓨팅 환경에서 AI 모델을 실행하는 새로운 가능성을 제시한다. 구체적으로, 훈련 데이터 생성 도구와 함께 제공되어, 사용자는 자신만의 모델을 쉽게 훈련할 수 있다. 따라서, 소형 AI 모델의 개발 및 배포에 대한 새로운 접근 방식을 제시하며, 임베디드 시스템 및 제한된 환경에서의 AI 활용에 대한 영감을 준다.