온디바이스 이미지 검색, 지식 증류로 다국어 지원!

지식 증류(Knowledge Distillation) 기법을 활용하여 모바일 기기 내에서 다국어 이미지 검색 기능을 구현, 5개 언어(영어/일본어/중국어(번체)/태국어/한국어) Recall@5 평균 78% 달성

온디바이스(On-device) 환경의 제약(지연, 프라이버시, 오프라인)을 고려하여 서버가 아닌 모바일 기기 내에서 이미지 이해 기능 구현

PyTorch 모델을 LiteRT로 변환하여 모델 크기를 70% 감소(205MB → 63MB), 정확도 93.21% 유지, 속도 15.97 it/s 달성

HNSW(Hierarchical Navigable Small World) 기반 벡터 DB를 구축하여 이미지 검색 속도 개선, 10,000장 기준 110ms의 지연 시간 확보

이미지 검색 기능을 비디오 검색으로 확장, CLIP4Clip 모델을 활용하여 파라미터 3배 감소에도 비견할 만한 성능 달성

지식 증류(Knowledge Distillation)를 활용한 다국어 이미지 검색

본문에서는 지식 증류(Knowledge Distillation)를 통해 영어 전용 텍스트 인코더를 다국어로 확장하여 다국어 이미지 검색을 구현했다. 거대 모델(Teacher Model)의 지식을 작은 모델(Student Model)에 전수하여 성능 저하를 최소화하면서 모델 경량화를 달성했다. 특히, 이미지와 텍스트를 같은 임베딩 공간에 매핑하여 언어에 관계없이 의미 기반 검색을 가능하게 했다. 다국어 지원(Multilingual Support)을 위해 5개 언어(영어, 일본어, 중국어(번체), 태국어, 한국어)를 지원하며, Recall@5 평균 78%를 달성했다.

온디바이스 이미지 검색, 지식 증류로 다국어 지원!

지식 증류(Knowledge Distillation)를 활용한 다국어 이미지 검색

CLIP과 BLIP, 이미지와 텍스트의 연결: 유사도 계산의 모든 것!

CodeQL 2.26.0: Kotlin 2.4.0 지원 및 AI 프롬프트 주입 탐지

PyTorch Lightning, 공급망 공격으로 AI 개발 환경 위협

온디바이스(On-device) 환경을 위한 모델 경량화

LiteRT 변환 과정에서의 기술적 난관

HNSW 기반 벡터 DB 구축 및 튜닝

전처리/후처리 및 토큰화기 구현

관련 추천 글

CLIP과 BLIP, 이미지와 텍스트의 연결: 유사도 계산의 모든 것!

CodeQL 2.26.0: Kotlin 2.4.0 지원 및 AI 프롬프트 주입 탐지

PyTorch Lightning, 공급망 공격으로 AI 개발 환경 위협

HNSW: 수억 개의 벡터를 밀리초(millisecond) 안에 검색하는 비결

코드큐엘(CodeQL) 2.25.2, 보안 취약점 분석 정확도 UP!

넷플릭스, 자체 LLM 서빙 플랫폼으로 프로덕션 환경 통합

댓글 0

댓글 0

관련 추천 글

CLIP과 BLIP, 이미지와 텍스트의 연결: 유사도 계산의 모든 것!

CodeQL 2.26.0: Kotlin 2.4.0 지원 및 AI 프롬프트 주입 탐지

PyTorch Lightning, 공급망 공격으로 AI 개발 환경 위협

HNSW: 수억 개의 벡터를 밀리초(millisecond) 안에 검색하는 비결

코드큐엘(CodeQL) 2.25.2, 보안 취약점 분석 정확도 UP!

넷플릭스, 자체 LLM 서빙 플랫폼으로 프로덕션 환경 통합

CLIP과 BLIP, 이미지와 텍스트의 연결: 유사도 계산의 모든 것!

CodeQL 2.26.0: Kotlin 2.4.0 지원 및 AI 프롬프트 주입 탐지

PyTorch Lightning, 공급망 공격으로 AI 개발 환경 위협