핀터레스트, GPU 기반 모델로 광고 추천 성능 대폭 개선

by DD
3개월 전
조회수 36

핀터레스트(Pinterest)는 광고 추천 시스템의 효율성 및 품질 향상을 위해 GPU 기반 Two-Tower 모델을 도입

새로운 모델은 MMOE-DCN 아키텍처(MMOE-DCN Architecture)를 활용하여 모델 복잡성을 높이면서도 CPU 기반 모델과 유사한 지연 시간(Latency) 유지

클릭률(CTR) 예측을 위한 오프라인 손실(Offline Loss) 5~10% 감소 및 모델 반복 속도 2배 향상

GPU 훈련 효율성 개선을 위해 데이터 로더(Dataloader) 최적화, BF16 정밀도(BF16 Precision) 사용 등 다양한 기법 적용

MMOE-DCN 아키텍처(MMOE-DCN Architecture) 상세 분석

본문에서 핀(Pin) 임베딩과 쿼리(Query) 임베딩을 계산하는 Two-Tower 모델에 MMOE(Multi-gate Mixture-of-Experts)와 DCN(Deep & Cross Networks)을 결합한 새로운 아키텍처를 소개한다.

MMOE: 다중 도메인(Multi-domain) 및 다중 태스크(Multi-task) 문제 해결을 위해 MLP 게이팅 메커니즘(MLP Gating Mechanism) 사용

DCN: 각 전문가(Expert) 레이어에서 풀 랭크(Full-rank) 및 로우 랭크(Low-rank) 레이어를 모두 활용하여 모델의 표현력(Expressiveness) 향상

기존 MTMD 모델(MTMD Model) 대비 도메인별 모듈(Domain-specific Modules) 없이도 성능 유지

이러한 아키텍처 변화는 모델 복잡성 증가에도 불구하고, CPU 기반 모델과 유사한 지연 시간을 유지하는 데 기여했다.

GPU 훈련 효율성 개선 방법

모델 크기(Model Size)와 훈련 플롭스(FLOPs) 증가에 따라 훈련 효율성(Training Efficiency)을 높이기 위한 다양한 최적화 기법이 적용되었다.

데이터 로더(Dataloader) 최적화: GPU 프리페치(GPU Prefetch) 활성화 및 워커 스레드(Worker Thread) 수 조정을 통해 데이터 로딩 병목 현상(Data Loading Bottleneck) 완화

모델 코드 효율성: CPU에서 발생하는 제로 할당(Zero Allocation)을 GPU에서 직접 수행하고, 퓨즈드 커널(Fused Kernel) 사용으로 오버헤드(Overhead) 감소

모델 훈련 설정: BF16 정밀도(BF16 Precision) 사용 및 배치 사이즈(Batch Size) 증가를 통해 메모리 활용도(Memory Utilization) 극대화

이러한 노력으로 훈련 시간을 단축하고, 더 복잡한 모델을 효율적으로 학습할 수 있게 되었다.

오프라인 및 온라인 평가 결과

모델의 성능 평가를 위해 오프라인 손실(Offline Loss)과 온라인 지표(Online Metrics)를 모두 활용했다.

오프라인 평가: KL 발산(KL Divergence)을 손실 함수(Loss Function)로 사용하여, 경매 낙찰자(Auction Winners) 및 경매 후보(Auction Candidates)에 대한 손실 감소 확인

온라인 평가: 클릭당 비용(CPC) 감소 및 클릭률(CTR) 증가를 통해 광고 추천 시스템의 효율성 및 사용자 경험 개선

구체적 수치: 오프라인 손실은 5~10% 감소, CPC는 감소, CTR은 증가

이러한 결과는 GPU 기반 모델이 기존 CPU 기반 모델보다 우수한 성능을 제공함을 입증한다.

광고 추천 시스템의 미래와 시사점

본 사례는 GPU 기반 모델 도입을 통해 광고 추천 시스템(Ads Recommendation System)의 확장성(Scalability)과 효율성(Efficiency)을 동시에 달성한 중요한 사례이다.

기술적 시사점: MMOE-DCN 아키텍처(MMOE-DCN Architecture)의 유연성(Flexibility)과 GPU 활용의 중요성을 보여줌

비즈니스적 시사점: 광고 수익 증대 및 사용자 경험 개선에 기여

향후 전망: 모델 복잡성 증가에 따른 GPU 인프라(GPU Infrastructure)의 중요성 증대 및 훈련 효율성(Training Efficiency) 개선을 위한 지속적인 노력이 필요

결론적으로, GPU 기반 모델은 광고 추천 시스템의 성능 향상에 기여하며, 향후 더 많은 분야에서 활용될 것으로 예상된다.

GPU-Serving Two-Tower Models for Lightweight Ads Engagement Prediction