벤치마크, 훈련 데이터 오염으로 무너지는 신뢰

SWE-bench Verified 벤치마크가 모델 훈련 데이터에 오염되어 더 이상 자율 소프트웨어 엔지니어링(Autonomous Software Engineering) 능력을 측정하지 못함

벤치마크의 테스트 케이스(Test Case) 결함과 문제 설명의 모호성으로 인해 정상적인 솔루션(Correct Solution)도 실패하는 경우가 발생

모델들이 훈련 과정에서 벤치마크 문제와 솔루션을 학습하여 성능 향상(Performance Improvement)이 실제 능력 향상을 반영하지 못함

OpenAI는 SWE-bench Verified 점수 보고를 중단하고, SWE-bench Pro 또는 새로운 비공개 벤치마크(Private Benchmark) 사용을 권장

SWE-bench Verified의 문제점: 테스트 케이스 결함

OpenAI의 분석에 따르면, SWE-bench Verified의 27.6%에 해당하는 문제에서 테스트 케이스(Test Case)의 결함이 발견되었다. 특히, 59.4%의 문제에서 기능적으로 올바른 솔루션(Functionally Correct Submission)이 테스트에 의해 거부되는 현상이 나타났다. 이는 테스트가 지나치게 구체적인 구현 세부 사항을 요구하거나, 문제 설명과 일치하지 않는 경우에 발생하며, 모델의 실제 능력 평가를 왜곡하는 주요 원인으로 지적된다. 벤치마크의 신뢰성을 저해하는 요소로 작용한다.

훈련 데이터 오염(Training Data Contamination)의 심각성

SWE-bench Verified는 공개된 데이터를 기반으로 하기 때문에, 모델들이 훈련 과정에서 벤치마크 문제와 솔루션을 학습하는 훈련 데이터 오염(Training Data Contamination) 문제가 발생한다. OpenAI는 자사 모델이 31개의 문제를 거의 완벽하게 해결하는 것을 확인했으며, 이는 모델이 벤치마크 문제와 솔루션을 이미 알고 있음을 시사한다. 이러한 오염은 모델의 실제 능력 향상을 반영하지 못하고, 벤치마크 점수의 신뢰성을 떨어뜨리는 결과를 초래한다.

벤치마크 설계의 근본적인 문제

SWE-bench Verified의 문제점은 벤치마크 설계 자체의 근본적인 문제에서 기인한다. 공개된 데이터를 기반으로 하는 벤치마크는 모델 훈련 데이터에 쉽게 노출되어 오버피팅(Overfitting)을 유발한다. 또한, 자동화된 채점 방식은 완벽한 테스트 케이스를 구성하기 어렵게 만들며, 이는 모델의 실제 능력 평가를 왜곡하는 결과를 초래한다. 이러한 문제점을 해결하기 위해, OpenAI는 비공개 벤치마크(Private Benchmark) 개발 및 GDPR 규제 준수(GDPR Compliance)를 강조한다.

새로운 평가 방식의 필요성

SWE-bench Verified의 한계를 극복하기 위해, OpenAI는 새로운 평가 방식의 필요성을 강조한다. 이는 훈련 데이터 오염을 최소화하고, 모델의 실제 능력을 정확하게 측정하기 위한 노력의 일환이다. 새로운 벤치마크는 비공개적으로 제작되며, 도메인 전문가(Domain Expert)에 의해 문제(Problem)가 생성되고, 훈련된 검토자(Reviewer)에 의해 솔루션(Solution)이 평가된다. 이러한 방식은 자원 집약적이지만, AI 환각(Hallucination)을 방지하고, 진정한 능력 향상을 측정하는 데 필수적이다.