AI 코딩 에이전트로 개발자 채용, 하네스 엔지니어링으로 평가 시스템을 고도화하다.

by DD
1개월 전
조회수 154

AI 코딩 에이전트를 활용하여 400여 명의 코드를 평가하는 채용 시스템을 구축, 채용 과정 자동화를 달성함

3-Tier 평가 모델(Make it Work, Basic Features, Deep Thought)을 기반으로 코드 품질과 AI 활용 능력, AI와의 협업 과정까지 평가함

마크다운(Markdown) 기반 하네스 설계를 통해 평가 항목 변경에 유연하게 대응하고, 26번의 초기화를 거쳐 채점 모델을 고도화함

7단계 파이프라인3-Tier 채점 모델을 통해 기능적 작동과 깊이 있는 사고를 분리하여 평가하고, 7단계 랭크를 부여함

AI 기반 채용 시스템 아키텍처: 하네스 설계

본문은 AI 코딩 에이전트를 활용한 채용 시스템의 핵심 아키텍처로, 마크다운(Markdown) 기반 하네스 설계를 제시한다.

7단계 파이프라인(Init, Security, Preflight, Quality, Functional, Scoring, Report): 지원자 코드 제출부터 최종 결과 보고까지의 전 과정을 구조화

멀티 에이전트 아키텍처: 후보자별 독립 에이전트 생성으로 컨텍스트 격리(Context Isolation) 및 평가 격리(Evaluation Isolation)를 구현

JSON Schema 기반 출력: AI 에이전트의 결과 형식을 강제하여 재현성(Reproducibility) 확보 및 평가 일관성 유지

이러한 설계는 평가 항목 변경에 유연하게 대응하고, AI의 출력을 검증하며, 시스템의 확장성을 보장한다.

3-Tier 평가 모델: 기능과 깊이의 분리

본 시스템은 3-Tier 평가 모델(Make it Work, Basic Features, Deep Thought)을 통해 기능적 작동과 깊이 있는 사고를 독립적으로 평가한다.

Base (Functional Gate): Docker 컨테이너에서 테스트 케이스 실행을 통해 기능 점수 부여

Depth (Quality Gate): AI가 코드와 문서를 분석하여 8개 영역에서 코드 품질 및 AI 활용 능력 평가

7단계 랭크: Base와 Depth 점수를 합산하여 Ace, Craftsman, Hustler, Thinker, Contender, Rookie, Incomplete 등급 부여

이러한 분리된 평가는 기능은 완벽하지만 코드 이해도가 낮은 Hustler와, 빌드 실패에도 불구하고 깊이 있는 사고를 보여주는 Thinker를 구별하는 데 기여한다.

마크다운(Markdown) 기반 하네스 엔지니어링

본 시스템은 마크다운(Markdown) 기반 지침서를 통해 AI 에이전트를 제어하고, 평가 시스템의 유연성을 확보했다.

지침서(Instruction) 기반: AI 에이전트가 마크다운 문서를 읽고 평가를 수행, 평가 기준 변경 시 즉시 반영

하네스 엔지니어링: 에이전트 자체를 수정하는 대신, 지침서를 설계하고 반복 조율하여 시스템을 고도화

JSON Schema: AI의 출력 형식을 강제하여 AI 환각(Hallucination)을 방지하고, 평가 결과의 신뢰성을 확보

마크다운의 유연성은 평가 모델의 빠른 반복을 가능하게 했으며, 이는 시스템의 지속적인 개선을 이끌었다.

실전 기능 테스트: Functional Gate

Functional Gate는 Docker 컨테이너(Docker Container)를 활용하여 실제 코드가 동작하는지 검증한다.

API 엔드포인트 자동 탐지: 후보자별로 상이한 API 엔드포인트를 AI 에이전트가 문서와 소스코드를 분석하여 매핑

테스트 케이스(Test Case) 기반 평가: 기능별 테스트 케이스를 실행하고, 구현 수준에 따라 차등 점수 부여

빌드 실패(Build Failure) 대응: 15개의 Dockerfile 템플릿을 제공하여 빌드 실패율을 낮추고, 빌드 실패 시에도 Quality Gate를 통해 코드 품질 평가 지속

이러한 접근 방식은 실제 동작하는 시스템을 평가하고, 다양한 구현 방식을 포용하며, 시스템의 견고성을 높이는 데 기여한다.

채점 모델의 진화: 루브릭 개선

본 시스템은 세 겹의 피드백 루프(Feedback Loop)를 통해 채점 모델을 지속적으로 개선했다.

자동 평가: Quality Gate와 Functional Gate를 통해 초기 점수 생성

패턴 탐지: AI 에이전트가 점수와 코드 간의 괴리를 분석하여 편향(Bias) 탐지

루브릭 개선: 사람의 개입을 최소화하고, 루브릭 자체를 수정하여 시스템의 일관성 유지

이러한 반복적인 개선 과정을 통해, 채점 모델은 17번 변경되었고, 26번의 초기화를 거쳐 신뢰성을 확보했다.

The Machine: AI가 AI 활용 코드를 평가하다