GPT-5.5 Codex, 516 토큰에 갇힌 성능 저하 의혹

GPT-5.5 Codex 모델에서 응답 토큰 수가 516개로 고정되는 이상 현상이 발견됨

해당 현상은 복잡한 작업에서 잘못된 답변을 반환하는 성능 저하와 연관될 가능성이 제기됨

GPT-5.5 모델에 특화된 문제로, 다른 모델에서는 유사 현상이 거의 관찰되지 않음

개발자들은 내부적인 추론 예산(Reasoning Budget) 제한 또는 최적화 과정에서의 부작용을 의심하고 있음

GPT-5.5의 고정 토큰 수 클러스터링 현상

분석에 따르면 GPT-5.5 모델은 응답의 추론 토큰 수(reasoning_output_tokens)가 516개에서 비정상적으로 집중되는 패턴을 보입니다. 이는 2026년 2월부터 6월까지의 Codex 토큰 카운트 메타데이터 분석 결과이며, 특히 5월에 이 현상이 급증했습니다. 해당 클러스터링은 GPT-5.5 모델에 특화되어 있으며, 다른 GPT-5.x 모델이나 Codex 변형 모델에서는 거의 나타나지 않는다는 점에서 주목할 만합니다. 이는 데이터 미저장 정책(Zero-Retention Policy)과는 별개로, 모델 자체의 내부 동작 방식에 대한 의문을 제기합니다.

성능 저하와의 상관관계 및 사용자 경험

커뮤니티에서는 이 고정 토큰 수 현상이 복잡하거나 높은 수준의 추론이 필요한 Codex 작업에서 성능 저하를 야기한다고 보고 있습니다. 특정 사용자는 동일한 프롬프트에 대해 10번 실행 중 4번이나 516 토큰에서 멈추며 잘못된 결과를 반환했다고 증언했습니다. 이는 적응형 사고(Adaptive Thinking) 또는 추론 예산(Reasoning Budget)과 관련된 문제일 수 있으며, 사용자들은 이전 버전(GPT-5.2, GPT-5.3) 대비 품질 저하를 체감하고 있습니다. 일부는 데이터 격리 아키텍처(Data Isolation Architecture)를 사용하는 로컬 모델로 전환하는 것을 고려하고 있습니다.

잠재적 원인: 최적화 vs. 의도적 제한

이 현상의 원인으로 처리량 최적화(Throughput Optimization)를 위한 배치 처리(Batch Processing) 또는 동적 추론 경로(Dynamic Reasoning Path)의 고정이 거론됩니다. 일부에서는 OpenAI가 컴퓨팅 비용 절감을 위해 의도적으로 특정 토큰 수에서 응답을 종료시키는 방식을 도입했을 가능성을 제기합니다. 그러나 이는 AI 환각(Hallucination)과는 다른 문제로, 모델이 의도적으로 제한된 추론을 수행하는 것으로 보입니다. 명확한 설명 없이 이러한 변화가 발생한 것에 대해 사용자들의 불만이 높습니다.

오픈 소스 및 투명성 논쟁

Codex가 오픈 소스라는 점은 이러한 문제를 공개적으로 논의하고 해결할 수 있는 기회를 제공합니다. 하지만 일부 사용자는 추론 내용이 암호화(Encrypted Reasoning)되어 있어 내부 동작을 완전히 파악하기 어렵다고 지적합니다. 이는 kimi/glm/deepseek과 같은 다른 모델들과 비교했을 때 블랙박스(Black Box) 특성이 강하다는 비판으로 이어집니다. 투명성 부족은 사용자들이 모델의 신뢰성에 의문을 제기하게 만드는 요인 중 하나입니다.