A-SFT, 추천 시스템 post-training의 새로운 지평을 열다!

Generative Recommender의 post-training 시 Reward Model의 불확실성 및 Counterfactual Data 부족 문제 발생

Advantage-Weighted Supervised Fine-tuning (A-SFT) 알고리즘을 제안하여 Reward Model의 방향성 신호 활용

A-SFT가 기존 방법 대비 추천 정확도 및 Reward Score 향상을 달성

Generative Recommender의 한계

Generative Recommender는 사용자 행동 시퀀스를 모방하여 추천을 수행한다. 구체적으로 Transformer 기반 모델을 활용하여 랭킹 및 검색 문제를 해결한다. 하지만, 단순 모방은 Reward Model의 노이즈와 Counterfactual Data 부족으로 인해 추천 품질 저하를 야기한다.

A-SFT 알고리즘의 핵심 원리

A-SFT는 Supervised Fine-tuning과 Advantage Function을 결합하여 post-training을 수행한다. 따라서, Reward Model의 불확실성에도 불구하고 방향성 신호를 활용하여 모델을 개선한다. 반면, 와 같은 복잡한 기법을 사용하지 않아 문제를 해결한다.

A-SFT, 추천 시스템 post-training의 새로운 지평을 열다!

Generative Recommender의 한계

A-SFT 알고리즘의 핵심 원리

AI 퍼즐봇, 게임 밸런싱을 데이터로 풀다!

단일 카메라로 복잡한 환경 탐색하는 AI 모델

AI 엔지니어의 정의가 확장되고 있습니다

A-SFT의 성능 분석 및 시사점

관련 추천 글

AI 퍼즐봇, 게임 밸런싱을 데이터로 풀다!

단일 카메라로 복잡한 환경 탐색하는 AI 모델

AI 엔지니어의 정의가 확장되고 있습니다

넷플릭스, 생성형 AI로 홈페이지 개인화 혁신

Physical AI, 시뮬레이션과 현실의 이중 학습으로 프로덕션 시대 진입

언어 모델(LM)부터 직접 만들어보는 스탠포드 CS336

댓글 0

댓글 0

관련 추천 글

AI 퍼즐봇, 게임 밸런싱을 데이터로 풀다!

단일 카메라로 복잡한 환경 탐색하는 AI 모델

AI 엔지니어의 정의가 확장되고 있습니다

넷플릭스, 생성형 AI로 홈페이지 개인화 혁신

Physical AI, 시뮬레이션과 현실의 이중 학습으로 프로덕션 시대 진입

언어 모델(LM)부터 직접 만들어보는 스탠포드 CS336

AI 퍼즐봇, 게임 밸런싱을 데이터로 풀다!

단일 카메라로 복잡한 환경 탐색하는 AI 모델

AI 엔지니어의 정의가 확장되고 있습니다