LLM의 핵심, Transformer 아키텍처를 파헤치다!

by DD
5개월 전
조회수 21

Transformer 아키텍처는 텍스트를 토큰화하고 임베딩하여 숫자로 변환한다.

위치 인코딩을 통해 단어 순서를 이해하고, 어텐션 메커니즘으로 단어 간 관계를 파악한다.

인코더-디코더 모델, 잔차 연결, 레이어 정규화 등 다양한 기술을 활용한다.

토큰화와 임베딩: LLM의 언어 이해

토큰화는 텍스트를 모델이 이해할 수 있는 작은 조각으로 나누는 과정이다. 서브워드 토큰화는 희귀 단어와 신조어 처리에 효과적이다. 따라서 임베딩 테이블을 통해 각 토큰을 고차원 벡터로 변환하여 단어 간의 의미적 관계를 파악한다.

어텐션 메커니즘: 단어 간의 연결고리

어텐션 메커니즘은 문장 내 단어 간의 관련성을 파악하는 핵심 기술이다. 각 단어는 Query, Key, Value로 표현되어 다른 단어와의 관련성을 계산한다. 구체적으로, Multi-Head Attention은 다양한 관점에서 단어 간 관계를 분석하여 문맥 이해 능력을 향상시킨다.

잔차 연결과 정규화: 모델 안정성 확보

잔차 연결은 각 레이어의 입력값을 다음 레이어에 직접 전달하여 정보 손실을 방지한다. 레이어 정규화는 활성화 값의 범위를 조절하여 학습 과정의 안정성을 높인다. 따라서 깊은 신경망에서도 Gradient Vanishing 문제를 해결하고, 모델의 일반화 성능을 개선한다.

The Transformer Architecture: A Deep Dive into How LLMs Actually Work