AI 프로덕트, 성공을 위한 새 계기판을 만들고 운전대를 잡아라!

AI 프로덕트의 복잡성 증가로 기존 SaaS 지표(DAU)만으로는 한계가 있으며, WAU 전환 등 KPI 재정의가 필수적임

AI 고유 지표로 환각률, 근거 충실도, 토큰 비용, P95 응답 속도 등 새로운 측정 기준 도입 필요

출시 후 첫 72시간 동안 대화 내용, 비용, 속도를 집중 모니터링하여 초기 문제점 파악 및 대응

인프라, 비용, 품질, 사용자 경험 4계층 동시 모니터링으로 AI 프로덕트의 안정적 운영 확보

모델 드리프트(Model Drift) 현상 이해 및 프롬프트 수정, 데이터 업데이트 등 대응 전략 수립

AI 프로덕트 KPI의 진화: 모델 T에서 테슬라까지

AI 프로덕트의 핵심 성과 지표(KPI)는 기존 SaaS와 달리 사용 패턴의 근본적인 변화를 반영해야 합니다. 과거 포드 모델 T의 단순 계기판과 달리, 테슬라 모델 Y는 수십 개의 지표를 통해 차량 상태를 종합적으로 보여줍니다. AI 프로덕트 역시 DAU(일간 활성 사용자)와 같은 전통적 지표만으로는 환각(Hallucination) 발생 여부나 답변 품질 저하와 같은 핵심 문제를 파악하기 어렵습니다. 따라서 OpenAI가 WAU(주간 활성 사용자)로 전환한 것처럼, AI 도구의 비연속적이고 깊이 있는 사용 패턴을 포착할 수 있는 지표로의 전환이 필수적입니다. 이는 단순히 숫자를 바꾸는 것을 넘어, AI 프로덕트가 기존 앱과 본질적으로 다르다는 점을 인정하는 과정입니다.

RICE-A 프레임워크: AI 시대의 우선순위 결정

기존 RICE 프레임워크(Reach, Impact, Confidence, Effort)는 AI 프로덕트에서도 유효하지만, 각 항목의 해석이 달라집니다. Reach는 실제 AI 기능이 트리거되는 빈도로, Impact는 AI 출력 품질이 비즈니스 결과로 이어지는가로 재정의됩니다. 특히 Confidence는 팀의 확신에 더해 모델의 일관성(Model Consistency)까지 고려하는 두 단계로 확장됩니다. Effort는 단순 개발 공수를 넘어 데이터 준비, 모델 학습, 운영 체계 구축까지 포함한 총체적 노력을 의미합니다. 이러한 RICE-A(RICE with AI) 접근법은 AI 맥락에 맞춰 기능 우선순위를 재평가하게 합니다.

AI 프로덕트의 핵심 지표: 모델 품질, 운영 비용, 신뢰성

AI 프로덕트에는 기존에 없던 새로운 지표들이 중요해집니다. 첫째, 모델 품질 지표로는 환각률(Hallucination Rate), 근거 충실도(Groundedness), 답변 적합도(Answer Relevancy) 등이 있습니다. 둘째, 운영·비용 지표에서는 인터랙션 당 토큰 비용(Token Cost per Interaction)과 P95 응답 속도(Latency)가 수익성과 사용자 경험에 직결됩니다. 셋째, 신뢰·안전 지표로는 모델 드리프트(Model Drift)와 사용자 개입률(Human Override Rate)이 AI의 실질적 도움 여부를 판단하는 기준이 됩니다. 이러한 지표들을 종합하여 피처의 북극성(North Star Metric)을 설정하는 것이 중요합니다.

출시 후 첫 72시간: AI 프로덕트의 생존을 결정하는 시간

AI 프로덕트의 출시 후 첫 72시간은 기존 소프트웨어와 달리 매우 중요합니다. 첫 24시간은 실제 사용자 대화 내용을 직접 읽으며 언어적 패턴을 파악하는 시간입니다. 24~48시간 사이에는 PRD 추정치와 실제 토큰 비용(Token Cost)을 비교하여 예상치 못한 비용 폭증에 대비해야 합니다. 48~72시간에는 P95 응답 속도(Latency)의 급증 패턴을 확인하여 잠재적 성능 저하를 조기에 감지합니다. 이 초기 모니터링은 AI 프로덕트가 안정적으로 운영될 기반을 마련하는 데 필수적입니다.

4계층 모니터링과 옵저버빌리티(Observability)의 중요성

AI 프로덕트 운영은 단일 대시보드로 불가능하며, 인프라, 비용, 품질, 사용자 경험의 네 가지 계층을 동시에 봐야 합니다. 인프라 계층에서는 P95 지연 속도가 중요하며, 비용 계층에서는 세션별, 기능별 비용 분해가 필요합니다. 품질 계층은 자동화 평가(LLM-as-a-judge)와 샘플링 기반 사람 평가를 병행해야 합니다. 사용자 경험 계층에서는 좋아요/싫어요 비율, 재질문 비율 등 암묵적 신호를 포착해야 합니다. 또한, LangSmith 같은 도구를 활용한 옵저버빌리티(Observability) 확보는 문제의 근본 원인을 추적하는 데 필수적입니다.

모델 드리프트(Model Drift)와 컨텍스트 비대화(Context Bloat) 대응

AI 프로덕트는 시간이 지남에 따라 코드 변경 없이도 성능이 저하되는 모델 드리프트(Model Drift) 현상을 겪습니다. 이는 모델 업데이트, 사용자 질문 분포 변화, 정책 변경 등 다양한 원인으로 발생합니다. 또한, 시스템 프롬프트가 점차 비대해지는 컨텍스트 비대화(Context Bloat)는 비용 증가와 응답 속도 저하를 야기합니다. PM은 정기적인 평가 셋(Eval Set) 재실행과 프롬프트 '가지치기'를 통해 드리프트를 감지하고, 프롬프트 수정, 참조 자료 업데이트, 모델 버전 변경 등의 대응 전략을 수립해야 합니다.