Pinterest, LLM으로 검색 정확도 UP!

Pinterest는 LLM을 활용하여 검색 결과의 관련성을 평가하는 시스템을 구축함

오픈소스 LLM을 미세 조정하여 A/B 테스트의 효율성을 높임

MDE(최소 감지 효과) 0.25% 이하 달성, 검색 성능 개선에 기여

LLM 기반 관련성 평가 시스템 아키텍처

Pinterest는 LLM을 활용하여 검색 쿼리와 핀(Pin) 간의 관련성을 평가한다. 구체적으로 Cross-encoder 아키텍처를 사용하며, 다국어 LLM을 활용하여 다양한 언어의 검색어를 지원한다. 따라서 5단계 관련성 척도를 기반으로 정확한 평가를 수행하고, A/B 테스트에 적용한다.

인간 레이블링 vs LLM, 무엇이 다를까?

기존 인간 레이블링 방식은 비용과 시간 제약으로 인해 샘플 크기에 한계가 있었다. 반면 LLM을 활용하면 샘플링 디자인을 개선하여 MDE(최소 감지 효과)를 획기적으로 줄일 수 있다. 따라서 Stratified Sampling을 통해 검색 성능 개선에 기여한다.

검색 관련성 평가, 실전 적용 가이드

Pinterest는 XLM-RoBERTa-large 모델을 사용하여 높은 정확도를 달성했다. 구체적으로 단일 A10G GPU에서 30분 만에 15만 개의 데이터를 처리한다. 따라서 sDCG@K 지표를 활용하여 A/B 테스트 결과를 평가하고, 비영어권 쿼리에 대한 성능 개선을 지속적으로 추진한다.