넷플릭스, 생성형 AI로 홈페이지 개인화 혁신
기존 복잡한 추천 파이프라인을 단일 생성 모델로 대체하여 모델 유지보수 간소화 및 목표 불일치 문제 해결 시도
강화학습(Reinforcement Learning)을 통한 페이지 단위 최적화로 사용자 만족도 극대화 및 다양성 증진 달성
온라인 A/B 테스트에서 기존 시스템 대비 핵심 사용자 참여 지표 20% 향상 및 서빙 지연 시간 20% 감소 확인
맞춤형 토큰화(Custom Tokenization) 및 하이브리드 행 디코딩(Hybrid Row Decoding)으로 추론 효율성 증대 및 비즈니스 규칙 강제
생성형 모델 기반 엔드투엔드 홈페이지 구축
GenPage는 기존의 다단계 추천 시스템을 단일 트랜스포머(Transformer) 모델로 통합하여 엔드투엔드(End-to-End) 학습을 가능하게 함.
사용자 컨텍스트(User Context)를 프롬프트(Prompt)로, 홈페이지 전체를 응답(Response)으로 처리하는 생성형 패러다임(Generative Paradigm) 채택
데이터 격리 아키텍처(Data Isolation Architecture) 없이도 단일 모델로 전체 페이지 최적화(Whole-Page Optimization)를 수행하여 목표 불일치(Objective Misalignment) 문제 해결
강화학습(Reinforcement Learning)을 통해 사용자 만족도와 관련된 페이지 단위 보상(Page-level Reward)을 직접 최적화하여 개인화 품질 향상 도모
맞춤형 토큰화와 하이브리드 행 디코딩
GenPage는 도메인 특화 토큰화(Domain-Specific Tokenization)를 통해 시퀀스 길이(Sequence Length)를 줄이고 추론 비용(Inference Cost) 및 지연 시간(Latency)을 절감함.
각 행(Row)과 개체(Entity)를 단일 토큰으로 표현하여 제품 제어(Product Control) 용이 및 비즈니스 규칙 적용 간소화
하이브리드 행 디코딩(Hybrid Row Decoding) 전략으로 각 행의 첫 몇 개 개체만 생성형으로 처리하고 나머지는 효율적으로 선택하여 응답 속도 개선
이는 데이터 미저장 정책(Zero-Retention Policy)을 유지하면서도 실시간 사용자 선호도 변화에 빠르게 대응하는 데 기여함
콜드 스타트 문제 해결 전략
신규 콘텐츠(New Entities)의 부족한 상호작용 데이터 문제를 해결하기 위해 컨텍스트 주입(Context Injection)과 의미론적 임베딩 융합(Semantic Embedding Fusion)을 사용함.
신규 개체 메타데이터(Metadata)를 컨텍스트 토큰에 직접 주입하여 모델이 초기 정보 활용 가능
개체 ID 임베딩(Entity ID Embedding)과 콘텐츠 기반 임베딩(Content-based Embedding)을 융합하여 초기 표현력 강화
무작위로 폴백 토큰(Fallback Token)을 사용하여 학습함으로써 상호작용 데이터 없이도 의미 있는 추천 가능성 확보
강화학습(RL) 기반 페이지 단위 최적화
GenPage는 강화학습(Reinforcement Learning)을 통해 개별 토큰이 아닌 페이지 전체의 보상(Page-level Reward)을 최적화함.
이를 통해 개체 간 상호작용(Interactions), 다양성(Diversity), 중단 전력(Stopping Power) 등 복합적인 요소를 고려한 추천 가능
RL 학습 과정에서 다양성 지표(Diversity Metric)가 비목표적(Non-Objective)으로 증가하는 현상은 페이지 단위 최적화의 효과를 시사함
KL 페널티(KL Penalty)를 사용하여 사전 학습된 모델에서 크게 벗어나지 않도록 제어하여 보상 해킹(Reward Hacking) 위험 완화
온라인 A/B 테스트 결과 및 시사점
온라인 A/B 테스트 결과, GenPage는 기존 시스템 대비 핵심 사용자 참여 지표(Core User Engagement Metric)에서 통계적으로 유의미한 향상을 보임.
서빙 지연 시간(Serving Latency) 20% 감소는 생성형 모델이 반드시 느리지 않다는 것을 증명하며, 복잡한 파이프라인 제거의 이점을 보여줌
개체 카테고리 분포의 의도치 않은 변화는 GenPage의 정밀한 개인화 능력을 시사하며, 향후 프로덕션 시스템과의 정렬(Alignment) 필요성을 제기함
세션 내 신호(In-session Signals)에 대한 강력한 반응성은 별도의 특징 공학(Feature Engineering) 없이도 실시간 행동을 효과적으로 반영함을 입증