LLM 봇, 모델보다 하네스가 먼저다: 만득이의 한 달 수습기

펫프렌즈의 업무용 LLM 봇 '만득이'는 주문/결제/쿠폰 도메인 관련 질문에 답하며, 하네스(Harness)를 통해 안정성 확보에 주력함

모델의 성능보다 하네스(Harness)의 역할을 강조하며, 질문 범위 설정, 근거 확인, 실패 처리, 교정 루프 등 운영 품질(Operational Quality)을 결정하는 요소들을 설명함

Codex 런타임(Codex Runtime) 기반으로, Slack 턴(Slack Turn)마다 Codex 실행 및 상태 관찰을 통해 안정적인 업무 수행(Stable Task Execution)을 지원함

컨텍스트 드리프트(Context Drift) 및 잘못된 전제(Wrong Assumption)로 인한 문제점을 지적하며, 하네스(Harness)를 통한 문제 해결의 중요성을 강조함

PR 코드 리뷰, 장애 조사, 정책 히스토리 검색 등 실제 사용 사례를 제시하며, 업무용 봇(Business Bot)의 성공적인 운영을 위한 핵심 요소들을 강조함

본문에서는 업무용 LLM 봇의 핵심 성공 요소를 모델의 성능이 아닌, 모델을 둘러싼 하네스(Harness)로 정의한다. 하네스 엔지니어링(Harness Engineering)은 AI 에이전트가 복잡한 업무를 안정적으로 수행하도록 모델 밖의 환경을 설계하는 일이다.

컨텍스트 드리프트(Context Drift): 스레드가 길어지면서 질문의 목적에서 멀어지는 문제

: 도메인 규칙, 코드 컨벤션, 운영 도구의 실패 상태를 모르는 경우