Gemma4로 클라우드 없이 수화 통역, 59.1% 정확도 달성!
Gemma4 챌린지에 참여하여 웹캠 기반의 실시간 미국 수화(ASL) 통역기를 개발, 클라우드 API나 사전 훈련된 모델 없이 100% 로컬 환경에서 구동
MediaPipe를 활용하여 웹캠 영상에서 손(Hand) 감지 및 자르기(Cropping)를 수행, Gemma4 모델의 정확도(Accuracy) 향상
Gemma4 모델에 각 알파벳에 대한 구체적인 설명(Specific Description)과 혼동하기 쉬운 문자 쌍에 대한 명시적인 규칙(Explicit Rules)을 제공하여 정확도 개선
평가 파이프라인(Evaluation Pipeline) 구축: ASL 튜토리얼 영상에서 프레임을 추출, Gemma4의 정확도 측정, 59.1% 전체 정확도(Overall Accuracy) 달성
가장 어려운 문자(Hardest Letters)는 예상과 달랐으며, MediaPipe를 통한 이미지 전처리(Image Preprocessing)가 정확도 향상에 가장 큰 영향을 미침
Gemma4 모델과 MediaPipe의 역할 분담
본문에서 저자는 Gemma4 모델의 정확도 향상을 위해 MediaPipe를 활용하여 전처리 단계를 거쳤다. MediaPipe는 웹캠 프레임에서 손을 감지(Hand Detection)하고, 손 부분만 잘라내어(Cropping) Gemma4 모델에 입력한다.
MediaPipe: 15fps 속도로 손 감지 및 자르기 수행, 전경과 배경 분리(Foreground and Background Separation)
Gemma4: MediaPipe에서 잘린 손 이미지를 입력받아 ASL 알파벳 인식(ASL Alphabet Recognition) 수행
이러한 역할 분담을 통해 Gemma4 모델이 손 모양에 집중(Focus on Hand Shape)할 수 있도록 하여 정확도를 향상시켰다.
프롬프트 엔지니어링(Prompt Engineering)의 중요성
저자는 Gemma4 모델의 ASL 훈련이 없었기에, 각 알파벳에 대한 구체적인 설명(Specific Description)과 혼동하기 쉬운 문자 쌍에 대한 명시적인 규칙(Explicit Rules)을 제공했다.
A vs S: 엄지손가락 위치(Thumb Position)를 기준으로 구분
M vs N vs T: 손가락 접힘(Fingers Folded) 개수를 기준으로 구분
이러한 프롬프트 엔지니어링(Prompt Engineering)을 통해 모델이 ASL을 이해(Understand ASL)하도록 유도하고, 정확도를 향상시켰다. 이는 모델의 성능을 극대화(Maximize Model Performance)하는 핵심 전략이다.
평가 파이프라인(Evaluation Pipeline) 구축
저자는 단순히 앱을 시연하는 대신, ASL 인식 성능을 객관적으로 평가(Objectively Evaluate)하기 위해 평가 파이프라인(Evaluation Pipeline)을 구축했다.
ASL 튜토리얼 영상에서 프레임 추출
Gemma4 모델이 각 프레임을 자동으로 분류(Automatically Classify)
정확도 측정(Accuracy Measurement)을 위한 배치 테스트(Batch Test) 실행
로그 기록(Log Recording): 웹캠 캡처, 배치 실행, 모델 분류 등 모든 상호 작용을 CSV 파일에 기록
이러한 평가 파이프라인(Evaluation Pipeline)을 통해 모델의 전반적인 성능(Overall Performance)을 측정하고, 개선점을 파악했다.
로컬 환경(Local Environment)에서의 실행
본 프로젝트는 클라우드 API(Cloud API)나 사전 훈련된 모델(Pre-trained Model) 없이 100% 로컬 환경에서 실행된다는 점이 특징이다.
개인 정보 보호(Privacy Matters): 웹캠 사용 시 개인 정보 유출 우려 해소
API 키(API Key) 및 구독(Subscription) 불필요: 비용 절감 및 접근성 향상
Gemma4:e4b 모델 선택: E2B 모델은 성능 부족, 31B 모델은 로컬 실행 불가, E4B 모델은 성능과 효율성(Performance and Efficiency)의 균형 달성
이러한 로컬 환경(Local Environment)에서의 실행은 개인 정보 보호(Privacy)와 접근성(Accessibility)을 동시에 만족시키는 중요한 요소이다.
성능 분석 및 개선점
본문에서는 모델의 성능을 분석하고, 개선점을 제시한다.
전체 정확도(Overall Accuracy): 59.1% 달성
가장 정확한 문자(Best Letters): B, D, E, F, G, H, K, R, T, U, X, Y, Z (100%)
가장 낮은 정확도(Worst Letters): I, O, P (0%), V (22%)
오류 분석(Error Analysis): O를 A, C, E로 오인, D, F에 대한 낮은 신뢰도
개선점: MediaPipe를 통한 이미지 전처리(Image Preprocessing)가 정확도 향상에 가장 큰 영향을 미침
이러한 분석을 통해 모델의 취약점(Weakness)을 파악하고, 추가적인 개선(Further Improvement)을 위한 방향성을 제시한다.