Gemma 4로 고전 한국어를 현대어로 번역!

by DD
2일 전
조회수 0

고전 한국어(Classical Korean)의 언어적 간극으로 인한 독서의 어려움을 해소하고자 함

Gemma 4 E2B 모델LoRA(Low-Rank Adaptation) 기법으로 미세 조정하여 번역 성능 향상을 목표로 함

데이터셋 구축 및 PEFT(Parameter-Efficient Fine-Tuning) 적용으로 유사도 점수 79.93% 달성 및 고전 한국어 번역 정확도 개선

고전 한국어의 번역 난제와 해결 전략

고전 한국어는 단어 간 띄어쓰기 부재아래아(ㆍ), 여린히읗(ㆆ)사라진 문자로 인해 현대 한국어 화자에게도 큰 독해 장벽으로 작용함.

본 프로젝트는 Gemma 4 E2B 모델을 기반으로, LoRA(Low-Rank Adaptation) 기법을 활용한 PEFT(Parameter-Efficient Fine-Tuning) 방식을 채택하여 효율적인 미세 조정을 수행함.

데이터셋 구축 시, 홍길동전 원문과 현대어 번역본을 대화 형식(Conversational Format)으로 구성하고, 시스템 프롬프트(System Prompt)를 명확히 정의하여 모델이 번역 작업에 집중하도록 유도함.

PEFT와 LoRA를 활용한 효율적인 모델 미세 조정

대규모 언어 모델(LLM)의 미세 조정은 막대한 컴퓨팅 자원을 요구하지만, PEFT(Parameter-Efficient Fine-Tuning) 기법은 이러한 부담을 크게 줄여줌.

LoRA(Low-Rank Adaptation)는 기존 모델의 가중치(Weights)를 직접 수정하는 대신, 저차원(Low-Rank) 행렬을 추가하여 학습 파라미터 수를 획기적으로 줄임.

본 튜토리얼에서는 `peft` 라이브러리를 사용하여 LoRA 설정을 간결하게 구성하고, `target_modules='all-linear'` 옵션으로 모델의 모든 선형 계층(Linear Layer)에 LoRA를 적용함.

`collate_fn` 커스터마이징을 통해 시스템 및 사용자 입력 부분을 마스킹(-100 레이블)하여, 모델이 어시스턴트 응답 생성에만 집중하도록 강제함.

번역 성능 평가: 초기 추측과 최종 결과 비교

미세 조정 전, 기본 Gemma 4 모델은 고전 한국어의 문맥을 이해하지 못하고 지나치게 직역적인 설명을 생성하는 경향을 보였음.

초기 테스트 결과, 원문과 인간 번역 간의 유사도 점수(Similarity Score)는 4.85%에 불과하여 모델의 성능 한계를 명확히 드러냄.

반면, 5 에포크(Epoch)의 미세 조정을 거친 후, 최종 번역 결과의 유사도 점수는 85.71%까지 크게 향상되었음.

이는 데이터셋의 품질과 PEFT 기법의 효과성을 입증하며, 특정 도메인에 대한 모델의 적응력을 보여주는 결과임.

경량 모델 미세 조정의 문화유산 보존 가치

Gemma 4와 같은 경량 모델(Lightweight Model)을 활용한 미세 조정은 고가의 인프라 없이도 문화유산의 디지털화 및 접근성 향상에 기여할 수 있음.

고전 문학 번역 도구 개발은 언어적 장벽을 낮추고 과거의 지혜와 이야기를 현대 사회에 재조명하는 역할을 함.

본 프로젝트는 작은 데이터셋과 미세 조정 세션만으로도 역사적 자료를 쉽게 접근 가능하게 만들 수 있다는 가능성을 제시함.

이는 기술을 활용한 역사 보존(Historical Preservation through Technology)의 좋은 예시이며, 향후 다양한 고전 자료 번역에 응용될 수 있음.

Turning Gemma 4 into an Old Korean Translator