A-SFT, 추천 시스템 post-training의 새로운 지평을 열다!

by DD
7개월 전
조회수 7

Generative Recommender의 post-training 시 Reward Model의 불확실성 및 Counterfactual Data 부족 문제 발생

Advantage-Weighted Supervised Fine-tuning (A-SFT) 알고리즘을 제안하여 Reward Model의 방향성 신호 활용

A-SFT가 기존 방법 대비 추천 정확도 및 Reward Score 향상을 달성

Generative Recommender의 한계

Generative Recommender는 사용자 행동 시퀀스를 모방하여 추천을 수행한다. 구체적으로 Transformer 기반 모델을 활용하여 랭킹 및 검색 문제를 해결한다. 하지만, 단순 모방은 Reward Model의 노이즈와 Counterfactual Data 부족으로 인해 추천 품질 저하를 야기한다.

A-SFT 알고리즘의 핵심 원리

A-SFT는 Supervised Fine-tuningAdvantage Function을 결합하여 post-training을 수행한다. 따라서, Reward Model의 불확실성에도 불구하고 방향성 신호를 활용하여 모델을 개선한다. 반면, IPS와 같은 복잡한 기법을 사용하지 않아 Variance 문제를 해결한다.

A-SFT의 성능 분석 및 시사점

A-SFT는 Reward Weighted Behavior Cloning을 포함한 다양한 Baseline 대비 우수한 성능을 보였다. 구체적으로, NDCG@k, HR@k, MRR 지표에서 향상을 달성했다. 따라서, Reward Model의 불확실성이 높은 환경에서 A-SFT는 추천 시스템 성능 향상에 기여할 수 있다.

Post-Training Generative Recommenders with Advantage-Weighted Supervised Finetuning

댓글 0

첫 번째 댓글을 남겨보세요!