LLM 봇, 모델보다 하네스가 먼저다: 만득이의 한 달 수습기

by DD
5일 전
조회수 44

펫프렌즈의 업무용 LLM 봇 '만득이'는 주문/결제/쿠폰 도메인 관련 질문에 답하며, 하네스(Harness)를 통해 안정성 확보에 주력함

모델의 성능보다 하네스(Harness)의 역할을 강조하며, 질문 범위 설정, 근거 확인, 실패 처리, 교정 루프 등 운영 품질(Operational Quality)을 결정하는 요소들을 설명함

Codex 런타임(Codex Runtime) 기반으로, Slack 턴(Slack Turn)마다 Codex 실행 및 상태 관찰을 통해 안정적인 업무 수행(Stable Task Execution)을 지원함

컨텍스트 드리프트(Context Drift) 및 잘못된 전제(Wrong Assumption)로 인한 문제점을 지적하며, 하네스(Harness)를 통한 문제 해결의 중요성을 강조함

PR 코드 리뷰, 장애 조사, 정책 히스토리 검색 등 실제 사용 사례를 제시하며, 업무용 봇(Business Bot)의 성공적인 운영을 위한 핵심 요소들을 강조함

업무용 LLM 봇, 하네스(Harness)가 중요한 이유

본문에서는 업무용 LLM 봇의 핵심 성공 요소를 모델의 성능이 아닌, 모델을 둘러싼 하네스(Harness)로 정의한다. 하네스 엔지니어링(Harness Engineering)은 AI 에이전트가 복잡한 업무를 안정적으로 수행하도록 모델 밖의 환경을 설계하는 일이다.

컨텍스트 드리프트(Context Drift): 스레드가 길어지면서 질문의 목적에서 멀어지는 문제

잘못된 전제(Wrong Assumption): 도메인 규칙, 코드 컨벤션, 운영 도구의 실패 상태를 모르는 경우

하네스(Harness)의 역할: 질문 범위 설정, 근거 확인, 실패 처리, 교정 루프 등을 통해 모델의 안전한 운영을 지원

결과적으로, 하네스는 모델이 업무에 적합한 답변을 생성하도록 돕는 운영체제(Operating System)와 같은 역할을 수행한다.

Codex 런타임(Codex Runtime) 기반 봇의 특징

만득이는 Claude 계열 봇과 달리, Slack 턴(Slack Turn)마다 Codex를 실행하는 런타임 환경에서 동작한다. 이 구조는 모델의 답변 품질보다 요청의 맥락(Context), 작업 범위(Scope), 도구 사용 권한(Tool Permissions), 실행 상태(Execution Status)를 관찰하는 데 중점을 둔다.

실행 단위(Execution Unit): Slack 턴마다 codex exec 실행

Slack 응답(Slack Response): 모델이 만든 최종 답변을 Runner가 Slack에 게시

동작 확인(Operation Check): 시작 신호, 진행 상태, 최종 답변 출력, Slack 게시 결과 분리

이러한 구조를 통해, 만득이는 모델의 우열을 떠나 업무 요청의 안정적인 처리(Stable Task Processing)장애 대응 능력(Disaster Response Capability)을 확보한다.

하네스(Harness) 엔지니어링의 핵심 원칙

만득이는 업무용 봇의 안정성을 높이기 위해 여러 원칙을 따른다. 이는 모델의 답변 품질을 보완하고, 실제 업무 환경에서의 리스크(Risk)를 줄이는 데 기여한다.

담당 범위(Domain Scope) 명확화: 모든 질문에 답하는 것이 아니라, 답변해야 할 범위를 명확히 정의

근거의 종류(Evidence Type) 분리: 코드, 문서, 운영 도구, 추정 등 근거를 구분하여 답변의 신뢰성 확보

도구 실패(Tool Failure)와 사실 부재(Fact Absence) 구분: 도구 실패를 사실 부재로 오해하는 것을 방지

Slack 답변 간결화: 핵심 결론, 근거, 다음 액션을 빠르게 제시

이러한 원칙들은 봇이 안정적으로 업무를 수행(Stable Task Execution)하고, 신뢰할 수 있는 답변(Reliable Answer)을 제공하도록 돕는다.

실제 사용 사례: PR 코드 리뷰, 장애 조사, 정책 히스토리 검색

만득이는 실제 Post-Order 팀의 다양한 업무에 활용되며, 하네스(Harness)의 중요성을 입증한다. PR 코드 리뷰, 장애 조사, 정책 히스토리 검색 등에서 하네스를 통해 업무 효율성(Work Efficiency)을 높이고 있다.

PR 코드 리뷰: 변경 의도, 도메인 정책, 기존 컨벤션, 테스트 가능성, 운영 리스크를 함께 고려

장애 조사: 발생 범위, 로그, 코드, 문서, 티켓을 종합적으로 분석하여 원인 파악

정책 히스토리 검색: Slack 히스토리, Notion 문서 등을 활용하여 정책 변경 이력 관리

이러한 사례들은 하네스가 업무 자동화(Task Automation)를 넘어, 팀의 지식 축적(Knowledge Accumulation)에도 기여함을 보여준다.

만득이의 성장: 실패 관찰, 교정, 규칙 적용

만득이는 실패를 통해 학습하고, 하네스를 통해 지속적으로 개선되는 구조를 갖는다. 이는 봇이 단순히 답변을 생성하는 것을 넘어, 지속적인 성장(Continuous Growth)을 가능하게 한다.

실패 관찰(Failure Observation): 실패를 기록하고 분석하여 문제점 파악

교정(Correction): 실수를 규칙으로 변환하여 재발 방지

규칙 적용(Rule Application): 다음 실행에서 교정된 규칙을 적용

이러한 피드백 루프(Feedback Loop)를 통해 만득이는 팀의 업무 방식에 적응(Adapt to Team Workflow)하고, 더욱 정확하고 유용한 답변(More Accurate and Useful Answers)을 제공할 수 있게 된다.

LLM은 모델보다 하네스가 먼저다: 만득이 한 달 수습기

댓글 0

첫 번째 댓글을 남겨보세요!