오픈챗, 트렌딩 키워드로 사용자 참여 UP!

by DD
9개월 전
조회수 0

오픈챗 메시지에서 트렌딩 키워드를 추출하여 메인 화면의 사용자 경험을 개선함

Z-테스트 통계량 기반의 빈도 분석, MinHash 기반 중복 제거, NPMI 기반 부적절 키워드 필터링 적용

MMR 기법을 활용하여 트렌딩 키워드의 다양성을 확보하고, 서비스 내 활성도 증진을 기대함

트렌딩 키워드 추출 아키텍처

오픈챗 메시지에서 트렌딩 키워드를 추출하기 위해, 먼저 Z-테스트 통계량을 활용하여 빈도 급증 단어를 탐지한다. 구체적으로, 일주일 전 빈도와 비교하여 빈도 증가율을 계산하고, 이를 기반으로 트렌딩 키워드를 선정한다. 따라서 데이터 기반의 유행어 감지가 가능하다.

MinHash를 활용한 중복 메시지 제거

MinHash 기반 클러스터링을 통해 중복 메시지를 효율적으로 제거한다. 구체적으로, 텍스트를 토큰화하고 MinHash 시그니처를 생성하여 유사한 메시지를 묶는다. 반면, k값 조절을 통해 클러스터링 품질을 제어하며, SetDiv 지표를 활용하여 중첩도를 측정한다.

NPMI와 MMR을 이용한 키워드 품질 향상

NPMI를 활용하여 부적절한 키워드를 필터링하고, MMR 기법으로 트렌딩 키워드의 다양성을 확보한다. 따라서 경주 관련 키워드를 제거하고, 키워드 간 유사도를 고려하여 중복 노출을 방지한다. 결과적으로, 사용자에게 더욱 유용한 정보를 제공한다.

오픈챗 메시지들로부터 트렌딩 키워드 추출하기