아카이브 사이트맵

© 2026 Rayon. All rights reserved.

아티클 랭킹 스페이스 채용

GPT(트랜스포머)의 Self Attention, 수식 없이 핵심만 쏙!

by DD

2025-08-07

11개월 전

조회수 6

트랜스포머 기반 LLM 모델의 핵심인 Self Attention Block 구조를 설명

Masked Multi Self Attention 과정을 통해 단어 간 관계를 파악하고, 다음 단어 예측

Feed Forward Layer를 통해 모델의 비선형성을 추가하고, 가중치 학습을 개선

Self Attention Block의 핵심 구조

트랜스포머는 Self Attention Block을 기반으로 하며, 입력된 단어들의 관계를 파악한다. 구체적으로, Query, Key, Value 행렬을 통해 단어 간 유사도를 계산하고, Masked Attention을 적용하여 다음 단어를 예측한다. 따라서, MultiHead Attention을 통해 다양한 관점에서 단어 간 관계를 학습한다.

MultiHead Attention의 작동 원리

MultiHead Attention은 여러 개의 Masked Self Attention을 병렬로 실행한다. 각 헤드는 입력된 단어들을 다른 방식으로 처리하여, 다양한 특징을 추출한다. 반면, 각 헤드의 결과를 Concat하고, FeedForward Layer를 거쳐 최종 출력을 생성한다. 결과적으로, 모델은 다양한 패턴을 학습할 수 있다.

FeedForward Layer의 역할과 중요성

FeedForward Layer는 모델의 비선형성을 높여 학습 능력을 향상시킨다. 구체적으로, 입력된 데이터를 행렬곱을 통해 차원을 확장하고 축소한다. 따라서, 모델은 복잡한 패턴을 학습하고, LLM 성능 향상에 기여한다. 가중치 학습을 통해 모델의 정확도를 높인다.

수식없이 GPT(트랜스포머) 이해하기. 1편

댓글 0

첫 번째 댓글을 남겨보세요!

관련 추천 글

GPT-Live, AI 비서의 미래와 인간 소통의 미래

GPT 모델, 왜 자꾸 '고블린'을 언급할까?

200줄 파이썬으로 구현한 GPT, 마이크로GPT(microGPT)의 모든 것!

당근마켓, Transformer 기반 유저 임베딩으로 개인화 추천 시스템 성능 대폭 개선

GPT 모델의 작동 방식을 시각적으로 이해하는 교육 도구

LLM의 핵심, Transformer 아키텍처를 파헤치다!

관련 추천 글

GPT-Live, AI 비서의 미래와 인간 소통의 미래

GPT 모델, 왜 자꾸 '고블린'을 언급할까?

200줄 파이썬으로 구현한 GPT, 마이크로GPT(microGPT)의 모든 것!