GPT의 '고블린' 남발, 그 이유는?

GPT 모델에서 '고블린'이라는 단어가 과도하게 사용되는 현상 분석

성격 설정(Personality Setting) 문제와 강화 학습(Reinforcement Learning)이 원인으로 지목됨

개발자들이 고블린 억제 프롬프트를 적용하여 문제 해결 시도

SFT(Supervised Fine-Tuning) 과정에서 고블린 관련 데이터가 학습에 영향을 미친 것으로 추정됨

GPT의 '고블린' 과다 사용 현상 분석

영상에서는 GPT 모델, 특히 GPT-4에서 '고블린'이라는 단어가 맥락과 무관하게 자주 등장하는 현상을 지적합니다. 이는 모델이 특정 단어를 과도하게 학습하거나, 의도치 않은 패턴을 생성하는 문제로 보입니다. 초기 버전에서는 '널디(Nerdy)' 성격 설정이 이러한 현상을 유발했으며, 이는 강화 학습(Reinforcement Learning) 과정에서 특정 응답에 높은 보상을 부여했기 때문으로 분석됩니다.

문제 해결을 위한 개발자들의 노력

이 문제를 해결하기 위해 개발자들은 고블린 억제 프롬프트(Goblin Suppression Prompt)를 적용하는 등 다양한 시도를 하고 있습니다. 초기에는 성격 설정을 제거하는 방식으로 접근했으나, 이후 버전에서는 SFT(Supervised Fine-Tuning) 과정에서 고블린 관련 데이터가 학습에 영향을 미쳤을 가능성을 제기합니다. 이는 모델이 데이터셋의 편향성(Dataset Bias)을 학습하여 발생하는 문제임을 시사합니다.

강화 학습과 데이터셋의 영향

영상은 강화 학습 과정에서 인간 피드백(Human Feedback)이 잘못 적용되었을 가능성을 언급합니다. 특히, '널디' 성격 설정 시 고블린 관련 답변에 대한 보상이 과도하게 주어졌다면, 모델은 해당 단어를 더 자주 사용하게 됩니다. 또한, SFT 단계에서 고블린 관련 데이터가 포함되었다면, 이는 모델의 전반적인 응답 패턴에 영향을 미쳐 '고블린' 사용 빈도를 높이는 요인이 될 수 있습니다.

AI 유전병(AI Genetic Disorder)으로서의 고블린

발표자는 이러한 현상을 'AI 유전병'에 비유하며, 특정 단어가 모델 전체에 퍼져나가는 양상을 설명합니다. 이는 단순히 특정 프롬프트에 국한된 문제가 아니라, 모델의 내재적 특성(Inherent Characteristic)으로 자리 잡았음을 의미합니다. 특히, 이모지(Emoji) 사용과 같은 다른 비정상적인 패턴도 유사한 메커니즘으로 발생할 수 있다고 덧붙입니다.