SSG.COM, 딥러닝(Deep Learning) 기반 오타 보정으로 검색 품질 UP!
SSG.COM에서 검색 효율을 높이기 위해 오타 보정(Typo Correction)의 중요성을 인지하고 딥러닝(Deep Learning) 기반의 오타 보정 시스템을 도입
기존 검색 로그 기반 오타 집계 방식의 낮은 커버리지(Coverage) 문제를 해결하기 위해 오타-정타(Typo-Correct) 번역 모델(Translation Model)을 구축
Multitask Learning과 편집 거리 필터링(Edit Distance Filtering)을 통해 AI 환각(Hallucination)을 방지하고, 검색 실패율 0.3%p 감소 및 CTR 유지
향후 벡터 검색(Vector Search) 및 생성형 검색 모델(Generative Search Model) 도입을 통해 오타 보정 성능을 더욱 향상시킬 계획
기존 오타 처리 방식의 한계
기존 SSG.COM의 오타 처리 방식은 검색 로그 기반 오타 집계에 의존했으나, 이는 사후적 대응에 그쳤다.
편집 거리(Edit Distance)와 클릭 데이터를 활용하여 오타-정타 쌍을 추출했지만, 미발견 패턴(Unseen Pattern)에 대한 대응 불가
오타 발생 빈도가 낮아 데이터 추출 조건 충족이 어려워 낮은 커버리지(Coverage)를 보임
결과적으로 정확도는 높았지만, 새로운 오타에 대한 대응 속도가 느리고, 커버리지가 낮아 개선의 필요성이 제기됨.
오타-정타 번역 모델(Translation Model) 설계
기존 방식의 한계를 극복하기 위해 오타-정타 데이터를 이용한 번역 모델(Translation Model)을 도입했다.
오타-정타 쌍(Typo-Correct Pairs)을 대량 확보하기 위해 정타를 정의하고, 해당 정타에서 오타를 생성하는 방식으로 데이터 구축
정타 정의를 위해 입력 빈도, 클릭 빈도, 기간(a, b, c)을 활용하여 데이터 품질(Data Quality) 확보에 주력
띄어쓰기 패턴, 데이터 증강 수준을 실험하여 모델 성능(Model Performance) 최적화를 시도
AI 환각(Hallucination) 방지 전략
번역 모델 학습 후 AI 환각(Hallucination) 문제 발생으로, 서비스 적용을 위해 추가적인 안전 장치를 마련했다.
Multitask Learning을 통해 검색어-상품명, 상품명-검색어, 상품명-카테고리 간의 관계 학습
편집 거리(Edit Distance) 필터링을 통해 입력과 출력 간의 편집 거리가 임계값을 초과하는 경우 결과를 기각
이러한 전략을 통해 기존 오타 보정 영역을 대체하고, 커버리지(Coverage)를 향상시키는 데 성공
향후 개선 과제 및 목표
현재 시스템의 성능을 더욱 향상시키기 위해, 향후 벡터 검색(Vector Search) 및 생성형 검색 모델(Generative Search Model) 도입을 계획하고 있다.
검색어 p개 생성 후 랭킹화하여 오보정율(False Correction Rate) 감소 목표
상품 및 검색어를 벡터로 표현하고, 오타에 강건하게 학습하는 벡터 검색(Vector Search) 도입 추진
생성형 검색 모델(Generative Search Model) 도입을 통해 사용자 검색 의도(User Intent) 파악 및 검색 정확도 향상 기대