멀티모달 데이터 처리 및 RAG/LLM 검색 지원

by DD
4개월 전
조회수 11

MemU는 LLM 및 AI 에이전트 백엔드를 위한 에이전트 메모리 프레임워크임

대화, 문서, 이미지 등 멀티모달 입력을 받아 구조화된 메모리를 생성함

RAG(임베딩 기반) 및 LLM(비 임베딩) 검색을 모두 지원하여 유연성을 제공함

계층적 파일 시스템을 통해 메모리를 효율적으로 관리하고 추적 가능성을 높임

클라우드 버전자체 호스팅 옵션을 제공하여 다양한 환경에 적용 가능함

계층적 파일 시스템(Hierarchical File System) 아키텍처

MemU는 자원(Resource) → 항목(Item) → 카테고리(Category)의 3단계 계층 구조를 사용하여 메모리를 구성한다. 각 계층 간의 완전한 추적 가능성(Full Traceability)을 제공하여, 원본 데이터에서 추출된 정보까지 쉽게 접근할 수 있다. 특히, 점진적 요약(Progressive Summarization)을 통해 각 계층에서 추상화된 정보를 제공하며, 콘텐츠 패턴에 따라 카테고리가 동적으로 진화하는 유연한 조직(Flexible Organization)을 지원한다.

멀티모달 데이터 처리 및 통합

MemU는 대화, 문서, 이미지, 비디오, 오디오 등 다양한 형식의 데이터를 처리하여 통합된 메모리를 생성한다. 각 모달리티(Modality)는 동일한 3단계 계층 구조로 통합되어, 교차 모달 검색을 가능하게 한다. 예를 들어, 대화 로그에서 추출된 선호도 정보는 문서 및 이미지에서 추출된 정보와 함께 카테고리화되어, 사용자의 종합적인 프로필(Comprehensive Profile)을 구축하는 데 활용될 수 있다.

RAG 및 LLM 기반 검색 전략

MemU는 RAG(Retrieval-Augmented Generation) 기반 검색LLM 기반 검색을 모두 지원하여, 사용자의 요구에 맞는 유연한 검색 방식을 제공한다. RAG 방식은 임베딩 기반의 빠른 검색을 제공하며, LLM 방식은 심층적인 의미 이해를 통해 보다 정확한 검색 결과를 제공한다. 특히, 상황 인식 재작성(Context-aware Rewriting) 기능을 통해 질의를 개선하고, 충분성 검사(Sufficiency Checking)를 통해 불필요한 검색을 방지한다.

OpenRouter 통합 및 사용자 정의 모델 지원

MemU는 OpenRouter를 통해 다양한 LLM 모델에 접근할 수 있도록 지원하며, 사용자 정의 LLM 및 임베딩 제공자를 설정할 수 있다. OpenRouter 통합(Integration)을 통해 여러 모델 제공자를 단일 API로 사용할 수 있으며, llm_profiles 설정을 통해 사용자 정의 모델을 손쉽게 구성할 수 있다. 이는 MemU를 다양한 환경에 적용하고, 특정 요구 사항에 맞게 유연하게 확장(Flexible Expansion)할 수 있도록 돕는다.

성능 및 Locomo 벤치마크

README에 따르면 MemU는 Locomo 벤치마크에서 평균 92.09%의 정확도를 달성했다. 이는 다양한 추론 작업(Reasoning Tasks)에서 MemU의 높은 성능을 보여준다. Locomo 벤치마크(Benchmark)는 MemU의 핵심 기능인 메모리 관리 및 검색 성능을 평가하는 데 사용되었으며, 실험 데이터(Experimental Data)는 memU-experiment에서 확인할 수 있다.

NevaMind-AI / memU