RAG 시스템, 문서 전처리가 성능을 좌우한다!

RAG 시스템의 핵심은 LLM의 성능 향상이며, 이를 위해 문서 전처리가 중요함을 강조함

문서 분할 및 HTML 마크다운 변환 등 다양한 전처리 기법을 통해 검색 정확도를 높임

RecursiveCharacterTextSplitter 활용, HTML → Markdown 변환을 통해 AI 이해도를 향상시킴

RAG 시스템 아키텍처와 문서 전처리

RAG 시스템은 LLM의 한계를 극복하기 위해 자체 데이터를 활용한다. 구체적으로, 사용자 쿼리를 벡터 데이터베이스에서 검색하여 관련 정보를 추출한다. 따라서, 문서 분할 및 HTML 마크다운 변환을 통해 검색 정확도를 높이는 것이 중요하다.

문서 분할 전략: 의미 단위 청킹

문서 분할은 RAG 성능에 직접적인 영향을 미친다. RecursiveCharacterTextSplitter를 활용하여 문서를 의미 단위로 분할하는 것이 중요하다. 반면, 단순히 글자 수나 문장 수로 나누는 것은 문맥 단절을 유발할 수 있다. 따라서, Overlap을 적절히 유지하여 정보 손실을 최소화해야 한다.

HTML 문서 전처리: 마크다운 변환

HTML 문서는 AI가 이해하기 어려운 구조를 가지고 있다. HTML → Markdown 변환을 통해 불필요한 태그를 제거하고 핵심 정보만 남길 수 있다. 결과적으로, AI의 이해도를 높이고 정확한 응답을 이끌어낼 수 있다. 따라서, Pandoc과 같은 도구를 활용하는 것이 좋다.