AI 번역, 누가 더 잘할까? 고등학생 개발자의 벤치마크 도전!

고등학생 개발자가 TPU와 LLM을 활용하여 한국어 번역 벤치마크 KorT를 구축함

AI 심판관을 통해 번역 모델의 성능을 평가하고, 파파고와 구글 번역 등과 비교 분석함

API 크레딧 지원, 리버스 엔지니어링 등, 제한된 환경에서 벤치마크 구축 성공

TPU 환경 구축과 Gemma 모델 활용

구글 TPU를 활용하기 위해 llama-tpu, KorQuAD-TPU 프로젝트를 참고하여 환경을 구축했다. 구체적으로 Gemma 모델을 기반으로 TPU v4-64 장비에서 분산 학습 환경을 구성했다. 따라서 영-한 번역에 특화된 파인튜닝 모델 'Gemago'를 개발할 수 있었다.

AI 심판관, KorT 벤치마크 설계

AI 심판관으로 Claude 3.7 Sonnet 모델을 활용하여 번역 품질을 평가했다. 5가지 평가 기준과 Chain of Thought 방식을 적용하여 심판의 일관성을 확보했다. 반면, 프롬프트의 미세한 변화에도 결과가 달라지는 편향성 문제는 여전히 과제로 남았다.

API 활용과 벤치마크 자동화

파파고, DeepL 등 상용 번역 서비스의 API가 없는 경우, 브라우저 개발자 도구를 활용하여 API 호출 로직을 분석했다. 구체적으로 HMAC-MD5 암호화, Base64 인코딩 과정을 파이썬으로 포팅하여 자동화된 번역 요청 시스템을 구축했다. 결과적으로 다양한 모델을 지원하는 KorT CLI Tool을 개발했다.