토스 ML 경진대회 후기: 2,600명의 열정과 37개의 파생 변수!
by DD
6개월 전
조회수 15
토스에서 광고 클릭 예측(PCTR) ML 경진대회를 개최하여 2,600명 이상의 참가자를 유치함
실제 토스 앱 내 광고 데이터를 활용, Feature Engineering 및 모델 설계에 집중하도록 문제 출제
Boosting Tree 계열 모델 앙상블, Sequence Feature 활용 등 참가자들의 창의적인 문제 해결 방식 제시
광고 클릭 예측(PCTR) 문제 설계 배경
토스는 ML 기술을 통해 광고 효율을 높이고자 PCTR 모델 개발 경진대회를 개최했다. 구체적으로, 실제 토스 앱 내 광고 데이터를 활용하여 Feature Engineering 및 모델 설계 역량을 평가했다. 따라서, 실시간 서빙 가능한 모델 구축에 초점을 맞췄다.
데이터 익명화와 Feature Engineering의 딜레마
해커톤 데이터의 익명 처리는 필수적이지만, Feature Engineering의 재미를 제한하는 요인으로 작용했다. 반면, Sequence Feature를 활용하여 참가자들의 문제 해결 능력을 유도했다. 결과적으로, 37개 파생 변수 생성과 같은 창의적인 시도가 나왔다.
리더보드 상위 팀의 성과 분석
리더보드 상위 팀들은 Boosting Tree 계열 모델을 활용하고, EDA와 Feature Engineering에 집중했다. 따라서, Validation Strategy를 통해 모델의 일반화 성능을 높였다. 결과적으로, Sequence Feature를 효과적으로 활용하여 높은 점수를 획득했다.
댓글 0
첫 번째 댓글을 남겨보세요!