RAG 탈출! 가상 파일 시스템으로 AI 문서 검색 혁신
기존 RAG 시스템의 단점(Limitations)을 보완하고자, 가상 파일 시스템(Virtual Filesystem)을 구축하여 문서 검색 성능을 향상시킴
ChromaDB를 기반으로, grep, cat, ls, find 등의 유닉스 명령어를 지원하는 가상 파일 시스템인 ChromaFs를 개발
샌드박스(Sandbox) 기반 RAG 시스템 대비 세션 생성 시간(Session Creation Time)을 획기적으로 단축하고, 비용 절감(Cost Reduction) 효과를 달성
파일 시스템 기반 검색(Filesystem-based Search)의 장점과 데이터베이스(Database) 활용의 효율성에 대한 커뮤니티 논의가 활발하게 진행됨
RAG 시스템의 한계와 가상 파일 시스템 도입 배경
기존 RAG 시스템은 쿼리와 정확히 일치하는 텍스트 청크(Chunk)만 검색 가능하여, 여러 페이지에 걸쳐 있거나 정확한 구문이 필요한 경우 한계가 있었다. 이에 저자는 코드베이스(Codebase) 탐색과 유사한 방식으로 문서를 탐색할 수 있도록 가상 파일 시스템을 구축했다. 특히, grep, cat, ls, find와 같은 유닉스 명령어를 활용하여 에이전트(Agent)가 문서를 탐색하도록 설계했다. 이는 기존 샌드박스(Sandbox) 기반 RAG 시스템의 높은 지연 시간(High Latency)과 인프라 비용(Infrastructure Cost) 문제를 해결하기 위한 시도이다.
ChromaFs 아키텍처 및 구현 상세
ChromaFs는 just-bash를 기반으로 구축되었으며, IFileSystem 인터페이스(Interface)를 통해 유닉스 명령어를 ChromaDB 쿼리로 변환한다. 시스템 초기화 시, 파일 트리(File Tree)를 gzipped JSON 형태로 Chroma 컬렉션에 저장하고, ls, cd, find 명령어를 메모리 내에서 처리하여 네트워크 호출을 최소화한다. 또한, 사용자 세션 토큰(Session Token)을 기반으로 접근 권한을 제어하여, 데이터 격리 아키텍처(Data Isolation Architecture)를 구현했다. grep 명령어의 경우, ChromaDB를 사용하여 파일 검색 범위를 좁히고, Redis 캐시(Cache)를 활용하여 성능을 최적화했다.
성능 및 비용 절감 효과 분석
가상 파일 시스템 도입으로 세션 생성 시간이 기존 46초에서 100밀리초로 단축되었으며, 데이터 미저장 정책(Zero-Retention Policy)을 통해 추가적인 컴퓨팅 비용 없이 기존 인프라를 재사용할 수 있게 되었다. 특히, 샌드박스 기반 시스템의 높은 비용 문제를 해결하여, 대규모 사용자 환경에서도 효율적인 운영이 가능해졌다. ChromaFs는 기존 RAG 시스템의 검색 병목 현상(Search Bottleneck)을 해결하고, 전반적인 시스템 성능을 향상시키는 데 기여했다.
커뮤니티 반응 및 기술적 논쟁
커뮤니티에서는 파일 시스템 기반 검색 방식이 의미론적 검색(Semantic Search)의 새로운 가능성을 제시한다는 긍정적인 평가가 있는 반면, 과도한 복잡성(Overengineering)에 대한 우려도 제기되었다. 특히, just-bash를 사용한 쉘 에뮬레이션(Shell Emulation)이 TTFT(Time to First Token)를 증가시킬 수 있다는 지적이 있었다. 또한, 데이터베이스(Database)의 효율적인 활용과 기존 RAG 시스템과의 비교를 통해, 기술적 트레이드오프(Trade-offs)에 대한 다양한 의견이 제시되었다.