인턴, 시맨틱 캐싱으로 LLM 비용 25% 절감!

by DD
11개월 전
조회수 11

AI 추천 메시지 기능의 LLM 호출 비용 증가 문제를 시맨틱 캐싱으로 해결

시맨틱 캐싱의미 유사도 기반으로 캐싱하여 25% 비용 절감 달성

gRPC 통신, Chromedb-go 활용, DBSCAN 기반의 캐싱 셋 구성

시맨틱 캐싱 아키텍처 심층 분석

시맨틱 캐싱의미 유사도를 기반으로 캐싱하는 기술이다. gRPC를 통해 메인 서버와 분리된 add-on 형태로 구성되어 확장성을 확보했다. 따라서 Chromedb-go를 활용하여 지연 시간 감소비용 절감을 동시에 달성했다.

벡터 DB 선택과 성능 최적화

임베디드 방식의 Chromedb-go를 선택하여 로컬 환경에서 빠른 응답을 가능하게 했다. 수평 확장을 통해 부하 분산을 구현하고, 임베딩 생성 병목 현상을 해결했다. 따라서 1,000개 벡터에 대해 2ms 내외의 빠른 조회가 가능해졌다.

캐싱 셋 구성 및 DBSCAN 활용

DBSCAN을 활용하여 노이즈 데이터를 제거하고, 의미 기반캐싱 셋을 구성했다. PCA를 통해 차원 축소를 진행하여 계산 효율성을 높였다. 결과적으로 25% 캐시 HIT 달성 및 비용 절감 효과를 얻었다.

연간 LLM 호출 비용 25% 절감, 인턴이 도전한 시맨틱 캐싱 도입 기록