Claude와 Codex, Bedrock에서 협업으로 코드 품질 UP!
2026년 6월, Amazon Bedrock에서 Codex와 Claude Code가 정식 출시(GA)되어 두 AI 코딩 에이전트의 통합 사용 가능성 모색
Codex는 빠른 작업, Claude Code는 대규모 컨텍스트에 강점을 보여, 역할 분담을 통한 협업 시너지 기대
48번의 실험을 통해 하네스 엔지니어링(Harness Engineering)이 두 에이전트의 협업 효과를 극대화하는 핵심임을 입증함
교차 리뷰(Cross-tool Review) 시 단일 도구로는 발견하기 어려운 버그를 효과적으로 탐지하여 코드 품질 향상 가능성을 확인
Amazon Bedrock을 통해 통합된 환경에서 두 모델을 비용 효율적으로 운영하는 방안 제시
Amazon Bedrock 기반 Codex 및 Claude Code 통합 환경 구축
Amazon Bedrock은 2026년 6월부터 OpenAI의 GPT‑5.5, GPT‑5.4, Codex를 정식 출시(GA)하며 Codex와 Claude Code의 통합 운영 환경을 제공함.
AWS 계정 통합: 동일한 AWS 계정 내에서 인증, 리전, VPC, 로깅, 비용 추적이 통일되어 두 에이전트의 혼용 진입 장벽을 대폭 낮춤.
간편한 설정: Codex는 `model_provider = "amazon-bedrock"`, Claude Code는 `CLAUDE_CODE_USE_BEDROCK=1` 설정을 통해 Bedrock 엔드포인트를 사용하며, 모델 교체는 설정 파일 한 줄로 간소화됨.
비용 및 거버넌스 효율성: 단일 AWS 프로필과 리전에서 모든 실험을 실행하여 운영 비용 및 거버넌스 관리 복잡성을 최소화함.
협업 하네스 엔지니어링(Harness Engineering) 설계 원칙
본 실험은 모델 자체의 성능 비교가 아닌, 두 AI 에이전트를 효과적으로 연계하는 하네스 설계에 초점을 맞춤.
범용 하네스 설계: 과제 변경에도 재사용 가능한 구조를 목표로, 산출물 전달 방식(파일 시스템), 리뷰 보관(reviewN.md), 단계 간 연결(프롬프트 명시), 계측(시간·토큰 기록) 등 네 가지 핵심 문제를 해결함.
협업 토폴로지: 위임(Delegation), 특화(Specialization), 릴레이(Relay), 핑퐁(Ping-pong) 네 가지 협업 방식을 정의하고, 실제 협업 효과 측정을 위해 릴레이와 핑퐁에 집중함.
견고한 파이프라인: 단일 진입점, 테이블 주도 디스패치, 도구 추상화, 네 가지 안전장치(모델 ID 검증, 재시도, 산출물 게이트, 재개 기능)를 통해 실험의 재현성과 안정성을 확보함.
Codex와 Claude Code의 개발 성향 차이 분석
실험 결과, 두 AI 코딩 에이전트는 뚜렷한 개발 성향 차이를 보임.
Claude Code: 단일 패스 작성자로, 워크스페이스 탐색 없이 한 번에 코드 생성에 집중하며 가이드라인 수준의 구현을 도출함. 자기 검증은 주장 수준에 머무르는 경향이 있음.
Codex: 탐색 우선의 craftsman으로, `pwd`/`ls`로 디렉터리를 살피고 `apply_patch`로 코드를 작성하며, 실행 기반의 철저한 자기 검증을 수행함. 필요시 샌드박스 환경에 적응하는 유연성을 보임.
성향 차이: 이러한 개발 성향 차이는 효율성, 코드 품질, 협업 시 역할 적합성에 직접적인 영향을 미침.
명세 복잡도에 따른 단독 실행 효율성 변화
단순 명세의 Breakout 게임에서는 Codex가 Claude 대비 더 빠른 실행 시간과 낮은 토큰 사용량을 보였으나, 복잡한 Tetris 게임에서는 역전 현상이 발생함.
Codex의 토큰 효율성: 단순 작업에서 Codex가 Claude 대비 약 1/4 토큰을 사용한다는 기존 보고와 유사하게, Breakout에서는 Codex가 더 효율적임.
Tetris에서의 효율성 변화: 복잡한 Tetris 작업에서는 Codex의 추론 토큰 사용량이 급증하며 Claude 대비 비효율적이 되는 경향을 보임. 이는 명세의 복잡성이 모델별 효율성 유리함에 영향을 미침을 시사함.
단독 실행 결과: 두 모델 모두 10~15개의 요구사항을 충족하는 게임을 생성했으나, 화면 구성 및 디테일에서 차이를 보임.
교차 리뷰(Cross-tool Review)를 통한 버그 탐지 및 품질 향상
48번의 실험 중 유일하게 발견된 채점 불일치 사례는 다른 모델 계열의 채점관이 실제 버그를 잡아낸 경우로, 교차 리뷰의 가치를 입증함.
Codex의 리뷰 역할: Claude가 생성한 코드의 도달성 버그(Reachability Bug), 특히 stale-HUD나 dead-code 회귀를 정확히 탐지하고 수정 제안함.
Claude의 리뷰 역할: Codex 코드의 정책(Policy) 및 견고성(Robustness) 측면을 검토하며, 수치적 추론을 통해 잠재적 결함을 지적함.
협업 시너지: 서로 다른 모델 계열은 상호 보완적인 맹점을 가지며, 이를 통해 단일 도구로는 발견하기 어려운 버그를 효과적으로 탐지하고 코드 품질을 한 단계 끌어올릴 수 있음.
하네스 기반 협업 파이프라인의 실무 적용 가능성
실험에서 사용된 하네스는 벤치마크를 넘어 일상적인 개발 도구로 활용 가능함.
Claude Code 스킬 패키징: 핵심 로직을 환경변수로 분리하여, 두 CLI 에이전트 간 협업을 위한 Claude Code 스킬로 패키징함. 이를 통해 새로운 과제에 대한 협업 파이프라인 적용이 용이해짐.
실무 적용 시나리오: 빠른 프로토타이핑, 탐색적 작업에는 Claude Code, 명확한 작업 및 리뷰에는 Codex, 품질 향상을 위한 교차 리뷰에는 혼용을 권장함.
Amazon Bedrock의 역할: 통합된 환경에서 두 에이전트를 선택적으로 또는 혼용하여 사용할 수 있도록 지원하며, 하네스 설계가 혼용의 가치를 실현하는 핵심임을 강조함.