GPT(트랜스포머)의 Self Attention, 수식 없이 핵심만 쏙!
by DD
10개월 전
조회수 6
트랜스포머 기반 LLM 모델의 핵심인 Self Attention Block 구조를 설명
Masked Multi Self Attention 과정을 통해 단어 간 관계를 파악하고, 다음 단어 예측
Feed Forward Layer를 통해 모델의 비선형성을 추가하고, 가중치 학습을 개선
Self Attention Block의 핵심 구조
트랜스포머는 Self Attention Block을 기반으로 하며, 입력된 단어들의 관계를 파악한다. 구체적으로, Query, Key, Value 행렬을 통해 단어 간 유사도를 계산하고, Masked Attention을 적용하여 다음 단어를 예측한다. 따라서, MultiHead Attention을 통해 다양한 관점에서 단어 간 관계를 학습한다.
MultiHead Attention의 작동 원리
MultiHead Attention은 여러 개의 Masked Self Attention을 병렬로 실행한다. 각 헤드는 입력된 단어들을 다른 방식으로 처리하여, 다양한 특징을 추출한다. 반면, 각 헤드의 결과를 Concat하고, FeedForward Layer를 거쳐 최종 출력을 생성한다. 결과적으로, 모델은 다양한 패턴을 학습할 수 있다.
FeedForward Layer의 역할과 중요성
FeedForward Layer는 모델의 비선형성을 높여 학습 능력을 향상시킨다. 구체적으로, 입력된 데이터를 행렬곱을 통해 차원을 확장하고 축소한다. 따라서, 모델은 복잡한 패턴을 학습하고, LLM 성능 향상에 기여한다. 가중치 학습을 통해 모델의 정확도를 높인다.