엔터프라이즈 LLM, 복잡한 기술 대신 '기본'에 집중

by DD
2개월 전
조회수 32

Flava AI 어시스턴트(FAA)는 사내 문서 '참조(retrieval)' 방식을 통해 Flava 관련 문의의 96.1%에 답변 제공

파인 튜닝(Fine-tuning) 대신 RAG(retrieval-augmented generation)를 선택, 지식 주입의 비효율성유지 보수 비용(Maintenance Cost) 절감

문서를 통째로 임베딩(Embedding)하고 검색 후 자르는 '검색 후 자르기(post-split)' 전략으로 문맥 손실(Context Loss) 최소화

복잡한 워크플로 대신 ReAct(reasoning and acting) 방식을 채택, 단순 루틴(Simple Routine)으로 문제 해결

파인 튜닝(Fine-tuning) vs RAG(Retrieval-Augmented Generation) 비교 분석

본문에서는 FAA가 파인 튜닝 대신 RAG를 선택한 배경을 설명하며, 각 방식의 장단점을 분석한다.

파인 튜닝: '어떻게(how) 말하게 하는 도구'로, 새로운 지식 주입보다 말투나 어조를 변경하는 데 효과적

RAG: '무엇(what)을 알게 하는 도구'로, 문서 참조를 통해 최신 정보를 제공하고 유지 보수 비용 절감

파인 튜닝의 한계: 새로운 지식 주입 시 데이터셋 구성의 어려움유지 보수 비용 증가

결론적으로, FAA는 수시로 변경되는 제품 문서에 대응하기 위해 RAG를 선택하여 정보 갱신(Information Update) 유연성을 확보했다.

검색 후 자르기(Post-split) 전략의 기술적 구현

FAA는 RAG 시스템 구축 시, 문서를 청킹(Chunking)하지 않고 통째로 임베딩(Embedding)하는 '검색 후 자르기' 방식을 채택했다. 이는 문서의 특성을 고려한 전략이다.

검색 단계: 각 문서를 통째로 임베딩하여 검색 정확도(Search Accuracy)를 높임

정제 단계: 헤더(Header) 기반 분할 및 LLM 필터링을 통해 질문과 관련된 조각만 추출

LLM 필터링: 경량 LLM을 활용하여 정밀한 필터링(Precise Filtering)을 수행하고, 추가적인 LLM 호출 비용 부담을 최소화

이러한 접근 방식은 문서의 완결된 문맥을 유지하면서, 질문에 적합한 정보만 추출하여 응답 품질(Response Quality)을 향상시킨다.

ReAct(Reasoning and Acting) 방식의 장점

FAA는 복잡한 워크플로 대신 ReAct 방식을 채택하여 에이전트(Agent)의 행동 구조를 단순화했다. ReAct는 모델이 스스로 추론하고 행동하는 단순한 루틴을 따른다.

계획 후 실행(Plan-and-execute) 방식의 단점: 계획 수립 및 재 계획 로직으로 인해 시스템 복잡도(System Complexity) 증가

ReAct의 장점: 단순한 루틴(Simple Routine)으로도 충분한 성능을 발휘하며, 점진적 공개와 검색 후 자르기를 통해 정제된 컨텍스트(Context) 제공

멀티 에이전트(Multi-agent) 구조의 한계: 응답 시간 증가 및 크로스 도메인 질문(Cross-domain Question) 처리의 어려움

결과적으로 ReAct는 FAA의 유지보수성(Maintainability)을 높이고, 모델의 자율성(Autonomy)을 극대화하는 데 기여했다.

엔터프라이즈 LLM 서비스 구축의 핵심 의사 결정

본문은 엔터프라이즈 LLM 서비스 구축 과정에서 내린 세 가지 핵심 의사 결정을 제시한다.

파인 튜닝(Fine-tuning) 제외: 지식 주입의 비효율성과 유지 보수 비용을 고려하여 RAG 선택

청킹(Chunking) 대신 검색 후 자르기(Post-split): 문서의 특성을 고려하여 문맥 손실을 최소화

복잡한 워크플로 대신 ReAct 선택: 단순한 루틴으로 시스템 복잡도를 줄이고 모델의 자율성 확보

이러한 결정들은 FAA의 96% 응답률을 뒷받침하며, 엔터프라이즈 환경에서 기술 선택의 중요성(Importance of Technology Selection)을 강조한다.

RAG 시스템 구축 시 고려사항

RAG 시스템 구축 시, 문서의 특성과 서비스의 목표에 맞는 전략을 선택하는 것이 중요하다. FAA의 사례는 이를 잘 보여준다.

문서의 특성: 문서의 크기, 구조, 주제의 명확성 등을 고려하여 청킹 여부 결정

서비스 목표: 최신 정보 제공, 유지 보수 용이성, 응답 품질 등을 고려하여 파인 튜닝 또는 RAG 선택

ReAct 방식의 장점: 단순한 루틴으로도 충분한 성능을 발휘하며, 시스템 복잡도를 줄임

결론적으로, RAG 시스템 구축은 기술적 트레이드오프(Technical Trade-offs)를 신중하게 고려하고, 서비스의 요구사항에 맞는 최적의 전략을 선택하는 것이 중요하다.

FAA의 향후 과제 및 발전 방향

FAA는 현재 높은 응답률을 보이고 있지만, 여전히 개선할 여지가 있다. 특히, 미답변 케이스 분석을 통해 시스템을 지속적으로 개선해 나갈 계획이다.

문서 부재(Doc Gap) 해결: 미답변 질문의 50%가 문서 부재로 인한 것이므로, 문서 보강에 집중

AI의 뇌 개조(AI Brain Modification) 대신 교과서 보강: AI의 답변 품질 향상을 위해, AI에게 제공하는 정보의 질을 높이는 데 집중

지속적인 모니터링 및 분석: 인텔리전스 리포트를 통해 시스템의 성능을 지속적으로 모니터링하고, 개선 사항을 발굴

결과적으로, FAA는 지속적인 학습(Continuous Learning)피드백 루프(Feedback Loop)를 통해 엔터프라이즈 LLM 서비스의 품질을 지속적으로 향상시킬 것이다.

엔터프라이즈 LLM 서비스 구축기 2: 에이전트 엔지니어링