온톨로지 DB로 RAG 성능 UP!
by DD
7개월 전
조회수 17
5,000개 PPT와 80,000건 Vector DB를 활용하여 의미 기반 검색 시스템 구축
Long Context Embedding 기법을 통해 슬라이드 간 연관성 강화
메타정보 추가로 Cosine 유사도 7% 향상 및 RAG 성능 개선
PPT 메타정보 추출 및 활용
PPT 슬라이드에서 Slide Number, Result, PPT Name 등의 메타정보를 추출했다. 구체적으로 각 슬라이드에 메타정보를 문자열 형태로 주입하여 Long Context Embedding을 수행했다. 따라서 슬라이드 단위의 데이터 연결성 강화를 통해 RAG 성능을 향상시켰다.
Cosine Similarity 분석 및 결과
메타정보 포함 여부에 따라 Cosine Similarity를 비교 분석했다. 반면 메타정보를 제외한 경우, 유클리드 거리가 19% 멀어졌다. 결과적으로 메타정보 추가가 RAG 성능 향상에 기여함을 확인했으며, 데이터 군집화에도 긍정적 영향을 미쳤다.
온톨로지 DB 구축 전략
온톨로지 DB는 ChatPPT를 기반으로 구축되었으며, NetworkX library를 활용하여 메타정보 간 연결을 구현했다. 따라서 Long Context Embedding을 통해 의미 기반 검색을 가능하게 했다. 결과적으로 RAG 모델의 의미 추론 능력을 극대화했다.