GPT-5-Codex, 25시간 동안 설계 도구 개발 성공!

OpenAI는 GPT-5-Codex를 통해 에이전트 코딩(Agentic Coding)의 장기 작업 수행 능력(Long-Horizon Task)을 실험, 25시간 동안 설계 도구 개발을 시도함

지속적인 검증(Continuous Verification), 실패 복구(Failure Repair), 프로젝트 메모리(Project Memory)를 활용하여 장기 작업의 신뢰성을 확보함

5.3 버전에서 멀티 스텝 실행(Multi-step Execution) 및 중간 수정(Course Correction) 기능이 개선되어 작업 효율성을 높임

장기 작업은 단일 프롬프트(Prompt)가 아닌, 에이전트 루프(Agent Loop)를 통해 수행되며, 명확한 목표 설정과 지속적인 검증이 중요함을 강조함

GPT-5-Codex의 장기 작업 능력: 시간적 지평 확장

본문은 GPT-5-Codex가 기존의 단일 작업(One-shot) 방식에서 벗어나, 장기적인 작업(Long-running Work)을 수행할 수 있도록 진화했음을 강조한다. 특히, 에이전트가 더 오랫동안 일관성을 유지하고, 더 큰 규모의 작업을 완료하며, 오류로부터 스스로 복구하는 능력이 향상되었다고 설명한다.

METR(Measuring AI Ability to Complete Long Tasks)의 연구를 인용하여, 에이전트가 50% 및 80% 신뢰도로 완료할 수 있는 소프트웨어 작업의 길이가 약 7개월마다 두 배로 증가하는 추세임을 밝힌다.

GPT-5.3-Codex는 멀티 스텝 실행(Multi-step Execution)(계획 → 구현 → 검증 → 복구)과 중간 수정(Course Correction) 기능을 통해 장기 작업의 효율성을 더욱 향상시켰다.

에이전트 루프(Agent Loop) 기반의 작업 방식

GPT-5-Codex의 장기 작업은 단일 프롬프트(Prompt)가 아닌, 에이전트 루프(Agent Loop)를 기반으로 작동한다. 이 루프는 계획, 코드 편집, 도구 실행(테스트/빌드/린트), 결과 관찰, 실패 복구, 문서/상태 업데이트의 반복으로 구성된다.

실제 피드백(Real Feedback): 오류, 차이점, 로그를 통해 에이전트가 작업 결과를 정확하게 파악

외부화된 상태(Externalized State): 코드 저장소, 파일, 문서, 작업 트리, 출력물을 활용하여 작업의 지속성을 보장

시간 경과에 따른 제어(Steerability Over Time): 작업 중간에 수정 사항을 적용하여 진행 상황을 유지

이러한 루프 구조는 에이전트가 장기 작업에서 일관성을 유지하고, 오류에 유연하게 대처할 수 있도록 돕는다.

지속 가능한 프로젝트 메모리(Durable Project Memory)

장기 작업의 핵심은 지속 가능한 프로젝트 메모리(Durable Project Memory)이다. 이는 작업의 목표, 제약 조건, 진행 상황을 명확하게 정의하고, 에이전트가 이를 반복적으로 참조하도록 함으로써 작업의 일관성을 유지한다.

Prompt.md: 목표와 제약 조건을 정의하여 에이전트가 잘못된 방향으로 진행되는 것을 방지

Plan.md: 마일스톤(Milestone)과 검증 단계를 설정하여 작업의 진행 상황을 추적하고, 각 단계별 검증을 통해 오류를 즉시 수정

Implement.md: 계획을 기반으로 에이전트가 작업을 수행하는 방법을 정의, 코드 변경 범위를 제한하고, 지속적으로 문서를 업데이트

Documentation.md: 현재 상태, 의사 결정, 실행 방법, 알려진 문제 등을 기록하여 작업의 투명성을 확보

이러한 구조는 에이전트가 장기간에 걸쳐 일관성 있는 작업을 수행하도록 돕는다.

GPT-5-Codex의 설계 도구 개발 사례 분석

저자는 GPT-5.3-Codex를 사용하여 설계 도구를 개발하는 실험을 진행했다. 이 실험은 UI, 데이터 모델, 편집 기능, 다양한 예외 상황을 포함하는 복잡한 작업으로, 에이전트의 장기 작업 능력을 시험하기에 적합했다.

25시간 동안 중단 없이 실행: GPT-5.3-Codex는 약 25시간 동안 중단 없이 실행되었으며, 1300만 개의 토큰을 사용하고 약 3만 줄의 코드를 생성

구현된 기능: 캔버스 편집, 실시간 협업, 검사기 컨트롤, 레이어 관리, 가이드/정렬/스냅, 히스토리, 프로토타입 모드, 주석, 내보내기 등 다양한 기능을 구현

결과: 완벽하지는 않지만, 실제 테스트 가능한 수준의 코드를 생성, 명확한 지침을 따르고 실제로 작동하는지 확인

이 실험은 장기 작업에서 에이전트의 잠재력을 보여주는 중요한 사례이다.

장기 작업 성공을 위한 핵심 요소

GPT-5-Codex를 활용한 장기 작업의 성공은 단일 프롬프트(Prompt)가 아닌, 여러 요소의 조합에 기인한다. 명확한 목표와 제약 조건, 단계별 마일스톤(Milestone)과 검증, 에이전트의 작업 방식 정의, 지속적인 검증, 그리고 작업 상태를 기록하는 감사 로그(Audit Log)가 핵심이다.

명확한 목표와 제약 조건(Spec File): 작업의 범위를 정의하고, 에이전트가 벗어나지 않도록 가이드

마일스톤 기반의 작업 분할(Checkpointed Milestones): 작업을 작은 단위로 나누어 진행 상황을 추적하고, 각 단계별 검증을 통해 오류를 조기에 발견

에이전트의 작업 방식 정의(Runbook): 에이전트가 계획을 따르고, 코드 변경 범위를 제한하며, 문서를 업데이트하는 방법을 명시

지속적인 검증(Continuous Verification): 테스트, 린트, 타입 검사를 통해 코드의 품질을 유지

실시간 상태/감사 로그(Live Status/Audit Log): 작업의 진행 상황과 의사 결정을 기록하여 투명성을 확보

이러한 요소들은 에이전트가 장기 작업에서 신뢰성을 확보하고, 개발자가 작업 과정을 이해하고 관리할 수 있도록 돕는다.