LLM, 팩트 체크 정확도 67% 불일치!

5개의 최첨단 LLM이 실제 팩트 체크 질문에 대해 67%의 불일치를 보임

모델 간의 의견 불일치는 34%의 경우 의미 있는 수준의 차이를 보임

프롬프트의 중요성이 강조되며, 정확한 팩트 체크를 위한 개선 필요

커뮤니티에서는 'Abstain' 옵션 부재와 인간 전문가 비교 부재에 대한 비판 제기

LLM 팩트 체크 정확도, 67% 불일치

연구 결과에 따르면, 5개의 최첨단 LLM이 실제 사용자 질문에 대해 67%의 불일치를 보였다. 이는 모델들이 동일한 팩트에 대해 서로 다른 판단을 내린다는 것을 의미하며, 특히 34%의 경우 'True'와 'False'와 같이 의미 있는 수준의 의견 차이(Substantive Disagreement)를 보였다. 이러한 결과는 LLM의 팩트 체크 능력에 대한 근본적인 한계(Fundamental Limitations)를 시사한다.

모델 간의 의견 불일치 분석

모델 간의 불일치 정도는 모델의 종류에 따라 달랐으며, Gemini 3 Pro + Search와 Gemini 3 Pro 간의 75%의 일치율을 보인 반면, Claude Opus 4.7과 Gemini 3 Pro 간에는 53%의 낮은 일치율을 기록했다. 이러한 결과는 모델의 아키텍처(Architecture), 학습 데이터(Training Data), 그리고 검색 기능(Retrieval Capabilities)의 차이에 기인하는 것으로 분석된다. 특히, 검색 기능이 통합된 모델의 경우, 정보 검색 방식에 따라 결과가 크게 달라질 수 있다.

프롬프트의 영향과 한계

커뮤니티에서는 프롬프트의 중요성을 강조하며, 프롬프트의 모호성(Ambiguity)이 모델의 판단에 영향을 미칠 수 있다고 지적했다. 예를 들어, 'Mostly True'와 'Misleading'과 같은 선택지가 모델의 판단을 어렵게 만들 수 있으며, 'Abstain' 옵션의 부재는 모델의 확신도(Confidence Level)를 반영하지 못한다는 비판이 제기되었다. 따라서, 정확한 팩트 체크를 위해서는 명확한 프롬프트(Clear Prompt)와 신중한 선택지 구성이 필요하다.

인간 전문가와의 비교 부재

일부 댓글에서는 인간 전문가의 팩트 체크 정확도와 비교하는 연구가 부재하다는 점을 지적했다. 즉, LLM의 성능을 평가하기 위해서는 인간 전문가의 판단을 기준점(Baseline)으로 삼아 비교 분석해야 한다는 것이다. 또한, 연구 결과가 특정 플랫폼의 데이터에 기반하고 있어, 일반적인 팩트 체크 상황에 대한 대표성(Representativeness)이 부족하다는 비판도 제기되었다. 이러한 점을 고려할 때, LLM의 팩트 체크 능력에 대한 추가적인 연구가 필요하다.