AI, 학술 논문까지 잠식? GPTZero, 환각된 레퍼런스 100건 발견

GPTZero, NeurIPS 2025 학회 논문에서 AI가 생성한 환각된 레퍼런스(Hallucinated References) 100건을 발견

연구 윤리(Research Ethics) 훼손 및 과학적 신뢰성 저하에 대한 우려가 제기됨

NeurIPS 측은 LLM 사용 관련 정책을 검토 중이며, 논문 내용의 유효성(Validity)을 강조

커뮤니티에서는 재현 가능성(Reproducibility)의 중요성을 강조하며, AI 생성 논문에 대한 경각심을 촉구

AI 환각(Hallucination)의 심각성

GPTZero의 연구 결과는 AI가 생성한 가짜 레퍼런스(Fake References)가 학술 논문에 광범위하게 사용될 수 있음을 시사한다. 이는 연구의 재현성(Reproducibility)을 저해하고, 과학적 발견의 신뢰성을 훼손하는 심각한 문제로 이어진다. 특히, AI가 생성한 그럴듯한 논문은 데이터 조작과 유사한 방식으로 연구 결과를 왜곡할 수 있다는 우려가 제기된다. AI 환각(Hallucination)은 연구의 근본적인 가치를 위협하는 요소로 작용할 수 있다.

학회 측의 대응과 과제

NeurIPS 측은 LLM 사용에 대한 정책을 검토하고 있으며, AI 기술 발전에 맞춰 리뷰 및 저술 과정(Review and Authorship Process)을 개선하겠다는 입장을 밝혔다. 하지만, AI 생성 레퍼런스 사용이 논문의 내용 자체를 무효화하지는 않는다는 입장을 보여, AI 윤리(AI Ethics)에 대한 논의가 필요하다는 지적이 나온다. 학회는 AI 기술을 활용하여 저자와 리뷰어의 역량을 강화하는 방안도 모색하고 있다.

AI 생성 리뷰의 문제점

커뮤니티에서는 AI가 생성한 리뷰의 문제점을 지적하며, 리뷰어의 과도한 업무량(Overworked Reviewers)과 AI의 일관성 부족(Lack of Consistency)을 주요 문제로 꼽았다. 한 사용자는 AI가 생성한 리뷰가 서로 모순되는 내용을 담고 있었다고 언급하며, AI 리뷰의 품질에 대한 의문을 제기했다. 이는 AI가 학술적 판단을 내리는 데 있어 신뢰성(Reliability)과 정확성(Accuracy)이 부족할 수 있음을 보여준다.

연구 재현성의 중요성

댓글에서는 연구 재현성(Reproducibility)의 중요성을 강조하며, AI 생성 논문에 대한 경각심을 높였다. 특히, 연구 결과의 검증(Verification)을 위해 기존 연구를 재현하는 노력이 필요하다는 의견이 제시되었다. 또한, 연구 결과 보고 시 출처 명시(Attribution)를 명확히 하고, AI 생성 논문에 대한 투명성(Transparency)을 확보해야 한다는 주장도 제기되었다. 이는 과학적 연구의 신뢰성 확보(Trustworthiness)를 위한 필수적인 요소로 간주된다.