GPT-5.5, 환각률 3배 높아… AI 모델 크기 경쟁의 함정

GPT-5.5가 MIT 라이선스의 GLM-5.2 대비 3배 높은 환각률(Hallucination Rate)을 기록하며 논란이 일고 있음

모델 크기(Parameter Count) 증가가 반드시 성능 향상으로 이어지지 않으며, 오히려 신뢰성 저하를 야기할 수 있다는 지적이 제기됨

커뮤니티에서는 환각 문제의 근본적 해결 방안과 평가 지표의 한계에 대한 논의가 활발하게 진행 중임

환각률(Hallucination Rate) 측정의 복잡성

커뮤니티에서는 환각률 측정 방식의 한계를 지적합니다. AA-Omniscience 벤치마크는 모델이 모르는 질문에 답하지 못하는 비율을 측정하는데, 이는 실제 사용 환경에서의 환각 발생 확률과 직접적으로 일치하지 않는다는 의견입니다. 예를 들어, GLM-5.2는 28%의 환각률을 보이지만, Opus 4.8은 36%로 더 높음에도 불구하고 정확도(Accuracy)는 47%로 GLM-5.2(25%)보다 우수합니다. 이는 단순히 환각률 수치만으로 모델의 신뢰성을 판단하기 어렵다는 점을 시사합니다.

모델 크기(Parameter Count)와 성능의 역설

본문은 GPT-5.5와 DeepSeek V4 Pro와 같이 수조 개의 파라미터를 가진 거대 모델들이 오히려 환각률(Hallucination Rate)이 높다는 점을 강조합니다. 이는 모델이 '모른다'고 답하는 법을 배우지 못하고, 복잡한 논리적 오류를 인지하지 못한 채 잘못된 답변을 자신 있게 생성하기 때문입니다. GLM-5.2는 절반 크기임에도 불구하고 더 낮은 환각률과 높은 정확도를 보여주며, 모델의 크기가 반드시 성능 향상의 지표가 아님을 증명합니다.

환각 문제 해결을 위한 RLHF(Reinforcement Learning from Human Feedback)의 한계

댓글에서는 RLHF를 통해 '모른다'는 답변을 학습시키는 것이 이론적으로는 간단해 보이지만 실제로는 어렵다는 점을 언급합니다. Sam Altman의 과거 블로그 게시물도 이를 시사합니다. 모델이 '모른다'는 답변을 선택지로 학습하도록 유도하는 것이 핵심이지만, 실제 구현에서는 흥미로운 답변을 선호하는 편향(Bias for Interesting Answers)이나 '틀린' 질문에 대한 학습 부족 등이 문제로 지적됩니다. 인간의 '두려움'과 같은 감정적 안전장치가 LLM에는 부재하다는 점도 근본적인 차이로 꼽힙니다.

AI 개발 패러다임 전환의 필요성

논의는 AI 모델 개발이 단순히 파라미터 수와 학습 데이터 규모를 늘리는 것에서 벗어나야 함을 시사합니다. GLM-5.2의 사례처럼, 더 작은 모델이 더 나은 성능과 신뢰성을 보일 수 있습니다. 이는 AI의 지능이 이미 상당 부분 정체(Plateaued)되었음을 의미하며, 향후 개발은 성능, 불확실성 보정(Uncertainty Calibration), 그리고 계산 효율성(Computational Efficiency)이라는 세 가지 핵심 과제를 균형 있게 해결하는 방향으로 나아가야 할 것입니다. 거대 모델의 상품화(Commoditization)는 벤치마크 성능과 실제 정확도 간의 경계를 모호하게 만들고 있습니다.