AI 가드레일로 부정 반품 94.6% 차단!

패션 이커머스의 높은 반품률과 연간 1,000억 달러 규모의 부정 반품(Fraudulent Returns) 문제 해결 필요성 대두

Amazon Nova 2 Lite 모델 미세 조정(Fine-tuning)으로 도메인 특화 Custom Guardrail 구축하여 부정 의도 탐지 정확도 94.6% 달성

소형 모델 Fine-tuning이 대형 모델 대비 비용 효율성(Cost-Effectiveness) 및 특정 도메인 탐지 성능 우수함을 입증

워드로빙(Wardrobing) 등 7개 부정 패턴에서 100% 탐지율 달성, 금융·헬스케어 등 타 산업 적용 가능성 제시

패션 이커머스 부정 반품의 심각성 및 유형

패션 이커머스의 반품률은 20-30%로 오프라인 대비 3배 이상 높으며, 이 중 약 13.7%가 사기·남용에 해당하여 연간 1,000억 달러의 손실을 야기함. 주요 유형으로는 행사 착용 후 반품하는 워드로빙(Wardrobing), 허위 불량 신고, 브래킷팅 등이 있으며, 이는 재판매 불가, 재고 손실, 물류 비용 증가 등 심각한 비즈니스 영향을 초래함. 수동 검토는 운영 비용 증가와 고객 경험 저하를 야기하므로 AI 기반 자동화가 필수적임.

Custom Guardrail의 필요성 및 LLM의 한계

범용 LLM은 '친절함' 때문에 부정 요청도 수용하는 경향이 있어, 패션 이커머스 도메인 특화 부정 패턴 탐지에 한계가 있음. Claude Sonnet 4.6은 부정 의도 59.5%, Qwen3-32B는 5.4%만 탐지하는 등, 우수한 모델도 도메인 특화 학습 없이는 부정 요청 차단에 미흡함. Custom Guardrail은 AI 에이전트 도달 전 부정 의도를 먼저 탐지하여 차단하는 도메인 특화 분류 모델로, 'Safe'와 'Unsafe'를 구분하여 정책 위반을 방지함.

Amazon Nova 2 Lite 선택 이유와 Fine-tuning 파이프라인

실시간 추론이 필요한 Custom Guardrail에는 정확도, 응답 속도, 비용 효율성이 중요함. Amazon Nova 2 Lite는 소형 모델임에도 256k 컨텍스트 길이를 지원하며, Bedrock에서 네이티브 Fine-tuning을 지원하여 비용 효율적이고 빠른 응답 속도를 제공함. 837개의 도메인 특화 데이터셋을 3단계에 걸쳐 구축했으며, Supervised Fine-tuning을 통해 Nova 2 Lite를 도메인 특화 모델로 변환하는 파이프라인을 구성함.

Fine-tuning 데이터셋 구성 및 카테고리 분류 전략

총 837개의 한국어 샘플로 구성된 데이터셋은 템플릿 기반 자동 생성 방식으로 구축되었으며, 3단계에 걸쳐 점진적으로 확장됨. 부정 의도(Unsafe)는 워드로빙(Wardrobing), 허위 불량/손상 주장, 택 조작 등 8가지 카테고리로 세분화하여 학습 데이터의 다양성을 확보하고 카테고리별 탐지 성능을 추적함. 이 분류 체계는 데이터셋의 다양성 확보와 정밀한 성능 분석에 기여함.

성능 평가 결과: 소형 모델 Fine-tuning의 우수성 입증

Fine-tuning된 Nova 2 Lite 모델은 전체 정확도 89.3%, Unsafe 정확도 94.6%를 달성하여 Base 모델(73.0%) 대비 21.6%p 향상됨. 특히 워드로빙, 택 조작 등 7개 카테고리에서 100% 탐지율을 기록함. 이는 Claude Sonnet 4.6(Unsafe 59.5%)보다 높은 성능으로, 소형 모델 + Fine-tuning이 특정 도메인에서는 대형 모델보다 효과적임을 입증함. Safe 정확도 소폭 하락은 수용 가능한 트레이드오프임.

산업별 적용 가능성과 향후 계획

본 프로젝트에서 검증된 '소량 도메인 특화 데이터 + Fine-tuning = 비용 효율적 의도 분류 모델' 패턴은 금융, 숙박, 헬스케어 등 다양한 산업에 적용 가능함. 향후 데이터셋 확장, 멀티모달 탐지(Multimodal Detection) 도입, 실시간 학습, A/B 테스트를 통해 성능을 더욱 고도화할 계획임. AI 에이전트 시대에 '무엇을 막아야 하는가'를 학습시키는 것이 신뢰 있는 AI 서비스의 핵심이 될 것임.