AI/ML로 스팸을 잡았다!

GPT-4o-mini와 금지어 목록으로 시작하여, 머신러닝 모델(SGDClassifier)을 도입하여 스팸 필터링 자동화

TfidfVectorizer를 활용, 텍스트 데이터를 벡터화하여 스팸 특징을 수치화하고, AWS Lambda 기반 서버리스 환경 구축

스팸 계정 생성 76% 감소, 게시글당 0.05원의 비용으로 자동 스팸 처리 시스템 구축

서버리스 아키텍처와 머신러닝 모델 배포

AWS Lambda를 활용하여 서버리스 환경을 구축, TfidfVectorizer와 SGDClassifier를 포함한 scikit-learn 라이브러리를 Lambda Layer로 추가했다. 따라서 파이썬 코드 수정 시 빠른 배포가 가능하며, 콜드 스타트 2.8초로 시작하여, 모델 추론에 0.2~0.6ms 소요되는 효율적인 시스템을 구현했다.

GPT와 머신러닝의 시너지 효과

초기에는 GPT-4o-mini와 금지어 목록을 사용했지만, 새로운 스팸 유형에 대응하기 어려웠다. 머신러닝 모델 도입 후, ChatGPT를 결합하여 다국어 스팸에 대응했다. Zero Shot with Auto Generate Prompt 기법을 적용하여, 스팸 계정 생성 76% 감소라는 놀라운 성과를 달성했다.

지속적인 스팸 필터링 시스템 개선

스팸 유형 변화에 따라, MongoDB에 특징을 저장하고, Jenkins Job을 통해 주기적으로 모델을 재학습시켰다. GPT-4o-mini를 활용하여 특징을 추출하고, 운영팀의 피드백을 반영하여 프롬프트 백오피스를 고도화할 계획이다. 결과적으로, 자동화된 스팸 처리를 통해 서비스 품질을 향상시켰다.