LLM의 핵심, Transformer 아키텍처를 파헤치다!
by DD
5개월 전
조회수 21
Transformer 아키텍처는 텍스트를 토큰화하고 임베딩하여 숫자로 변환한다.
위치 인코딩을 통해 단어 순서를 이해하고, 어텐션 메커니즘으로 단어 간 관계를 파악한다.
인코더-디코더 모델, 잔차 연결, 레이어 정규화 등 다양한 기술을 활용한다.
토큰화와 임베딩: LLM의 언어 이해
토큰화는 텍스트를 모델이 이해할 수 있는 작은 조각으로 나누는 과정이다. 서브워드 토큰화는 희귀 단어와 신조어 처리에 효과적이다. 따라서 임베딩 테이블을 통해 각 토큰을 고차원 벡터로 변환하여 단어 간의 의미적 관계를 파악한다.
어텐션 메커니즘: 단어 간의 연결고리
어텐션 메커니즘은 문장 내 단어 간의 관련성을 파악하는 핵심 기술이다. 각 단어는 Query, Key, Value로 표현되어 다른 단어와의 관련성을 계산한다. 구체적으로, Multi-Head Attention은 다양한 관점에서 단어 간 관계를 분석하여 문맥 이해 능력을 향상시킨다.
잔차 연결과 정규화: 모델 안정성 확보
잔차 연결은 각 레이어의 입력값을 다음 레이어에 직접 전달하여 정보 손실을 방지한다. 레이어 정규화는 활성화 값의 범위를 조절하여 학습 과정의 안정성을 높인다. 따라서 깊은 신경망에서도 Gradient Vanishing 문제를 해결하고, 모델의 일반화 성능을 개선한다.