200줄 파이썬으로 구현한 GPT, 마이크로GPT(microGPT)의 모든 것!

마이크로GPT(microGPT)는 200줄의 파이썬 코드로 GPT 모델을 구현하여, LLM의 핵심 알고리즘을 단순화함

데이터셋, 토크나이저, 자동 미분 엔진(Autograd Engine) 등 LLM의 필수 요소들을 포함하며, 가독성이 높다는 평가를 받음

커뮤니티에서는 Rust, C++ 등 다양한 언어로의 포팅(Porting) 시도와 학습 및 벤치마킹에 대한 관심이 높음

소형 모델(Small Model)임에도 불구하고, 챗GPT(ChatGPT)와 유사한 토큰 생성(Token Generation) 방식을 보여줌

마이크로GPT(microGPT)의 핵심 기술: 자동 미분(Autograd)

마이크로GPT(microGPT)는 자동 미분(Autograd) 기능을 구현하기 위해 `Value` 클래스를 사용한다. 이 클래스는 각 스칼라 값(.data)을 래핑(Wrapping)하고, 해당 값의 계산 방식을 추적한다. 특히, 덧셈, 곱셈, 지수 함수 등의 연산 시, 계산 그래프(Computation Graph)를 생성하여 각 노드의 지역 기울기(Local Gradients)를 저장한다. 이러한 구조를 통해, 역전파(Backpropagation) 과정에서 체인 규칙(Chain Rule)을 적용하여 모델 파라미터에 대한 기울기를 계산한다.