핀터레스트, 멀티모달 AI로 쇼핑 컬렉션 자동 생성

by DD
4개월 전
조회수 16

핀터레스트(Pinterest)는 멀티모달 LLM(Multimodal LLM)을 활용하여 상품을 쇼핑 컬렉션으로 자동 구성하는 PinLanding 시스템을 개발

사용자 검색 패턴 분석(User Search Pattern Analysis), 멀티모달 LLM 기반 어트리뷰트(Attribute) 생성, CLIP 스타일 모델(CLIP-style Model)을 활용한 속성 할당(Attribute Assignment)을 수행

Fashion200K 데이터셋(Dataset)에서 99.7% Recall@10 달성, 기존 방식 대비 검색 성능 35% 향상 및 4배 많은 쇼핑 랜딩 페이지 생성

PinLanding 아키텍처: 멀티모달 AI 기반 쇼핑 컬렉션 생성

PinLanding은 핀터레스트(Pinterest)의 쇼핑 컬렉션 생성을 위한 생산 지향 파이프라인(Production-Oriented Pipeline)이다. 시스템은 크게 4가지 구성 요소로 나뉜다.

사용자 검색 패턴 분석(User Search Pattern Analysis): 사용자 검색 기록, 자동 완성, 필터 사용 등을 분석하여 쇼핑 의도(Shopping Intent) 파악

쇼핑 토픽 생성(Shopping Topic Generation): 멀티모달 LLM(Multimodal LLM)과 LLM-as-judge를 활용하여 쇼핑 컬렉션 어휘 구축(Shopping Collection Vocabulary)

속성 기반 피드 구성(Feed Construction): 속성(Attribute)을 기반으로 피드(Feed) 구성

시스템 평가 및 진화: AI 기반 검색 행동(AI-native Search Behavior)에 맞게 시스템 평가 및 개선

이러한 구조를 통해 기존 검색 로그 기반 방식의 한계를 극복하고, 새로운 쇼핑 경험(Shopping Experience)을 제공한다.

CLIP 스타일 모델을 활용한 속성 할당

PinLanding은 CLIP 스타일의 듀얼 인코더 모델(Dual-Encoder Model)을 사용하여 제품에 속성을 할당한다. 이 모델은 이미지와 텍스트를 입력받아 제품 임베딩(Product Embedding)을 생성하는 인코더와 속성 구문을 입력받아 속성 임베딩을 생성하는 인코더로 구성된다.

대조 학습(Contrastive Training): 매칭되는 제품-속성 쌍(Product-Attribute Pairs)은 가깝게, 매칭되지 않는 쌍은 멀리 떨어지도록 학습

추론(Inference): 모든 제품과 속성을 임베딩한 후, 임베딩 유사도(Embedding Similarity)가 임계값(Threshold)을 초과하는 경우 속성 할당

결과: VLM(Vision-Language Model)의 직접적인 출력보다 더욱 밀집되고 일관된 속성 그래프(Attribute Graph)를 생성하여 다운스트림(Downstream) 쇼핑 작업에 적합

이러한 방식을 통해 계산 비용(Computational Cost)을 절감하고, 속성 공간의 품질을 향상시킨다.

Ray 기반의 배치 추론(Batch Inference) 파이프라인

PinLanding은 대규모 데이터셋(Dataset) 처리를 위해 Ray를 활용한 분산 배치 추론 파이프라인(Distributed Batch Inference Pipeline)을 구축했다. 파이프라인은 데이터 로딩 및 전처리, ML 추론, 피드 구성의 세 단계로 구성된다.

데이터 로딩 및 전처리: 이미지와 메타데이터를 PyArrow 테이블(PyArrow Tables)로 직렬화하여 CPU 클러스터(CPU Cluster)에 분산

ML 추론: CLIP 기반 분류기(CLIP-based Classifier)를 GPU 풀(GPU Pool)에서 실행하여 속성 점수(Attribute Scores) 생성

피드 구성: ANN(Approximate Nearest Neighbor) 스타일 매칭 레이어를 사용하여 쇼핑 토픽과 제품 간의 관련성 점수 계산

이러한 파이프라인은 데이터 로딩, 전처리, 추론을 동시에 수행하여 효율성을 높이고, GPU와 CPU 자원을 독립적으로 스케일링(Scaling)할 수 있도록 설계되었다.

성능 평가: Fashion200K 데이터셋(Dataset) 및 인간 평가

PinLanding은 속성 품질(Attribute Quality)과 컬렉션 품질(Collection Quality)을 평가하기 위해 다양한 지표를 사용했다.

Fashion200K 데이터셋(Dataset): CLIP 기반 모델의 Recall@10 99.7% 달성

인간 평가(Human Evaluation): 기존 검색 로그 기반 방식 대비 평균 Precision@10 0.84에서 0.96으로 향상

결과: 스타일(Style) 및 브랜드(Brand) 카테고리에서 Precision@10 1.00 달성

이러한 평가는 PinLanding이 정확하고 관련성 높은 쇼핑 컬렉션(Shopping Collection)을 생성할 수 있음을 입증하며, 실제 프로덕션 환경(Production Environment)에서의 검색 성능 향상(Search Performance Improvement)을 뒷받침한다.

향후 확장 가능성: AI 에이전트(AI Agent) 기반의 컬렉션 생성

PinLanding은 쇼핑 컬렉션 외에도 광고, 알림 등 다양한 분야로 확장될 수 있다. 하지만, 현재 시스템은 고정된 속성 스키마(Attribute Schema)를 기반으로 하기 때문에, “old money aesthetic work outfits”와 같은 복합적인 개념을 직접적으로 표현하는 데 한계가 있다.

소셜 및 트렌드 신호 통합: 소셜 미디어(Social Media) 및 트렌드 데이터(Trend Data)를 활용하여 새로운 개념을 파악

AI 에이전트 기반 레이어 개발: AI 에이전트(AI Agent)를 통해 새로운 개념을 속성 패턴으로 분해하고, 기존 파이프라인에 매핑

목표: AI 에이전트(AI Agent)를 통해 더욱 다양한 쇼핑 니즈(Shopping Needs)를 충족하고, 사용자 경험을 향상시킬 계획

이러한 노력을 통해 PinLanding은 지속적인 진화(Continuous Evolution)를 추구하며, 더욱 정교한 쇼핑 컬렉션을 제공할 것이다.

PinLanding: Turn Billions of Products into Instant Shopping Collections with Multimodal AI