멀티모달 LLM 기반 이미지 모더레이션, 성능과 비용을 잡다!

by DD
2개월 전
조회수 6

이미지 콘텐츠 모더레이션(Image Content Moderation)은 서비스 정책 위반 콘텐츠 탐지를 위한 핵심 인프라로, AI 기반 의사 결정 시스템(AI-based Decision System)으로 진화

LY Corporation은 높은 정확도와 빠른 처리 속도를 위해 전통적인 ML 모델, 멀티모달 LLM 하이브리드 구조, vLLM 프레임워크 기반 최적화를 수행

멀티모달 LLM(Multimodal LLM)을 활용하여 이미지 내 텍스트 정보를 활용하고, 객체 수준을 넘어 맥락과 의도를 함께 고려하는 복합 판별 구조(Hybrid Decision Model)를 설계

정책 변화에 유연하게 대응하기 위해 모델의 판단 결과와 정책 적용 로직을 분리하고, CLIP 기반 제로샷 분류기(Zero-shot Classifier)와 멀티모달 LLM을 결합

이미지 콘텐츠 모더레이션은 시각적 복잡성, 맥락 의존성, 변형 시도 등으로 인해 여전히 어려운 과제이며, AI 시스템 전반의 안전과 신뢰를 다루는 영역으로 확장

전통적 ML 모델과 멀티모달 LLM의 하이브리드 아키텍처

본문에서는 전통적인 ML 모델(Traditional ML Model)멀티모달 LLM(Multimodal LLM)을 결합한 하이브리드 구조를 통해 정확도와 비용 효율을 동시에 달성했다고 설명한다.

1차 필터: 전통적인 ML 모델을 사용하여 명확한 유해 여부를 판단하는 케이스를 신속하게 처리

2차 필터: 전통적인 ML 모델이 모호하게 판단하는 경우, 멀티모달 LLM을 호출하여 정교한 분석 수행

장점: 불필요한 LLM 호출을 최소화하여 비용 절감(Cost Reduction), 고정밀 분석으로 성능 향상(Performance Improvement)

이러한 하이브리드 아키텍처는 데이터 분포(Data Distribution) 분석을 기반으로, 각 모델의 장점을 극대화하는 전략이다.

vLLM 프레임워크를 활용한 멀티모달 LLM 최적화

LY Corporation은 vLLM 프레임워크를 활용하여 멀티모달 LLM의 성능을 최적화했다. 특히, 이미지 콘텐츠 모더레이션의 특성을 고려하여 vLLM의 다양한 기능을 활용했다.

enable_prefix_caching: 프롬프트(Prompt) 재사용을 통해 프리필(Prefill) 연산 절감, 지연 시간 감소 및 GPU 자원 절약

max_model_len: 전체 문맥의 최대 토큰 길이를 제한하여 메모리 효율(Memory Efficiency) 향상

max_num_seqs: 동시 처리 요청 수를 조절하여 처리량(Throughput)과 지연 시간(Latency) 간 균형 조절

max_num_batched_tokens: 프리필 중심 워크로드에 맞춰 값을 설정하여 GPU 활용도(GPU Utilization) 극대화

vLLM의 지속적인 업데이트를 통해 최신 기능을 반영하는 것이 중요하며, 서비스 특성에 맞는 최적화 옵션을 선택해야 한다.

복합 판별 구조(Hybrid Decision Model) 설계

단순 객체 인식(Object Detection)만으로는 유해 여부 판단이 어려운 문제를 해결하기 위해, LY Corporation은 복합 판별 구조(Hybrid Decision Model)를 설계했다.

OCR API: 이미지 내 텍스트를 추출하여 텍스트 정보(Textual Information) 활용

멀티모달 LLM: 시각 정보와 텍스트 정보를 결합하여 맥락과 의도(Context and Intent) 분석

결과: 기존 단일 비전 모델 대비 다양한 클래스에서 정밀도(Precision) 유의미하게 개선

이러한 구조는 단순 객체 탐지를 넘어 정책 수준의 행위 판단까지 가능하게 하며, 대규모 데이터 처리의 정확도를 높이는 데 기여한다.

정책 변화에 유연하게 대응하는 구조

콘텐츠 모더레이션(Content Moderation)은 정책 변화에 신속하게 대응하는 것이 중요하다. LY Corporation은 모델의 판단 결과와 정책 적용 로직을 분리하여 유연성을 확보했다.

모델: 콘텐츠의 속성값을 추정 (예: sexy_score, violence_score)

정책 로직: 속성값을 기반으로 차단, 경고, 연령 제한 등 결정

개발 생산성 향상: 정책 변화에 모델 변경 없이 대응 가능, 추가 개발 최소화(Minimize Additional Development)

또한, CLIP 기반 제로샷 분류기(Zero-shot Classifier)와 멀티모달 LLM을 결합하여 모델 업데이트에 효율적으로 대응한다.

개발 생산성 향상을 위한 두 가지 전략

LY Corporation은 정책 변화에 유연하게 대응하기 위해, 모델 구조를 확장하고 유연성을 확보하는 두 가지 전략을 채택했다.

강력한 사전 학습 비전 인코더(Vision Encoder)를 공통 백본으로 사용하고, 선형 분류기를 얹는 구조를 채택하여 확장성(Scalability) 및 유지보수성(Maintainability) 확보

CLIP 기반 제로샷 분류기와 멀티모달 LLM을 결합하여, 프롬프트(Prompt) 조정만으로 신규 정책(New Policy)에 대응

이러한 전략은 데이터 확보 및 재학습에 대한 의존성을 줄여, 개발 비용과 시간을 절감하고 유연성을 확보하는 데 기여한다.

대규모 서비스 환경에서의 이미지 콘텐츠 모더레이션(feat. 멀티모달 LLM)