AI PRD, '느낌'이 아닌 '측정 가능한 기준'으로 관리하세요

by DD
1시간 전
조회수 6

기존 소프트웨어 PRD는 '행동 정의'에 집중했으나, AI 기능은 비결정론적 특성으로 인해 '허용 가능한 답변 범위' 정의가 필수적임

AI PRD의 핵심은 'Eval Plan(평가 계획)'으로, AI 기능의 품질을 측정할 기준과 도구를 명시하여 결과 일관성 확보를 목표로 함

AI 기능은 프롬프트 수렁(Prompt Swamp)에 빠지기 쉬우므로, 회귀 테스트를 위한 Eval Plan 명시가 지속 가능한 관리의 핵심임

AI PRD는 기능 개요, 입출력 명세, 시스템 프롬프트 초안, 품질 기준, 실패 정의, 평가 계획, 모니터링 계획, 리스크 및 제한사항, 가격 모델을 포함해야 함

AI PRD와 기존 PRD의 근본적 차이: 결정론 vs 비결정론

기존 소프트웨어 PRD는 결정론적(Deterministic) 시스템을 전제로 '사용자 행동' 정의에 집중했습니다. 즉, 'X 입력 시 Y 결과'가 항상 동일하게 보장되었기에, 엔지니어는 명확한 행동 정의만으로 일관된 결과를 만들 수 있었습니다. 하지만 AI 기능, 특히 LLM 기반 기능은 비결정론적(Non-deterministic) 특성을 지닙니다. 동일한 입력에도 매번 다른 답변이 나올 수 있으며, '정확성'이나 '완벽함'의 기준이 모호합니다. 따라서 AI PRD는 '무엇이 일어나야 하는가'가 아닌, '어떤 답변이 받아들여질 만한가'라는 허용 가능한 답변의 범위를 정의하고, 그 판단 기준을 명확히 하는 데 초점을 맞춰야 합니다.

AI 기능의 '잘 동작함'을 정의하는 Eval Plan의 역할

AI PRD에서 가장 중요한 섹션 중 하나는 Eval Plan(평가 계획)입니다. 이는 AI 기능이 '잘 동작하고 있는가'를 판단할 구체적인 기준과 도구를 명시하는 문서입니다. 마치 미슐랭 셰프의 레시피가 '신선도', '창의성', '일관성' 같은 평가 기준을 따르듯, AI 기능도 정량적 또는 정성적 평가 기준을 통해 품질을 측정해야 합니다. 초기에는 20~30개의 테스트 케이스로 시작하여, 실제 운영 중 발견되는 실패 사례를 추가하며 Eval 셋(Eval Set)을 점진적으로 강화하는 것이 일반적입니다. 이는 AI 기능의 결과 일관성(Result Consistency)을 확보하고, '느낌'이 아닌 '측정 가능한 지표'로 성능을 관리하기 위한 핵심 장치입니다.

AI 기능 평가 방식의 피라미드 구조: 비용과 정확성의 균형

AI 기능의 평가에는 비용과 속도, 정확성 간의 균형을 맞추기 위한 다층적 평가 방식이 적용됩니다. 피라미드의 가장 아래층은 규칙 기반 평가(Rule-based Evaluation)로, 특정 단어 포함 여부나 길이 제한 등 명확한 규칙으로 자동 채점합니다. 중간층은 LLM-as-a-Judge로, 다른 LLM을 채점자로 활용하여 답변 품질을 평가하며, 가장 위층은 사람 평가(Human Evaluation)로, 가장 정확하지만 비용이 많이 드는 방식으로 까다로운 케이스나 회귀 테스트의 기준점을 설정합니다. 이 세 가지 방식을 조합하여 운영함으로써, 평가 비용을 통제하면서도 AI 기능의 품질을 효과적으로 관리할 수 있습니다.

프롬프트 수렁(Prompt Swamp) 탈출을 위한 회귀 테스트의 중요성

AI 기능 개발 시 흔히 겪는 프롬프트 수렁(Prompt Swamp)은, 특정 프롬프트 수정이 다른 케이스의 성능 저하를 유발하는 현상입니다. 이는 회귀 테스트(Regression Test)의 부재에서 기인합니다. AI PRD에 명시된 Eval Plan은 이러한 회귀 테스트의 기반이 됩니다. 프롬프트 수정 후 Eval 셋 전체를 다시 실행하여 점수 하락이 없는지 확인하는 과정은, AI 기능의 지속 가능한 관리(Sustainable Management)를 위해 필수적입니다. Eval Plan은 단순히 초기 테스트 케이스를 넘어, 출시 후에도 팀이 동일한 기준으로 성능을 측정하고 개선할 것이라는 약속이며, 이는 6개월 후 기능의 운명을 결정짓는 중요한 요소입니다.

AI PRD의 필수 구성 요소와 가격 모델의 통합적 설계

성공적인 AI 프로덕트 개발을 위해 AI PRD에는 일반 PRD 항목 외에 AI 특화 섹션이 반드시 포함되어야 합니다. 여기에는 기능 개요, 입출력 명세, 시스템 프롬프트 초안, 품질 기준, 실패 정의, 평가 계획, 모니터링 계획, 리스크 및 제한사항 등이 포함됩니다. 특히, AI 프로덕트의 가격 모델(Pricing Model)은 제품 설계와 분리될 수 없으므로 PRD 단계에서 함께 고려되어야 합니다. 사용량 기반, 성과 기반, 또는 하이브리드 모델은 제품의 성공 지표 및 Eval Plan 설계에 직접적인 영향을 미치므로, 가치 창출과 가격 모델 간의 정합성을 확보하는 것이 중요합니다.

AI PRD는 무엇이 달라야 하는가