AWS Bedrock Prompt Caching으로 LLM 서비스 성능 UP!

by DD
7개월 전
조회수 4

AWS Bedrock Prompt Caching을 활용하여 쿼리 생성 속도 향상비용 절감을 달성

Lambda, ALB, EC2 구조를 거쳐 Throttling 문제를 해결하고 안정성을 확보

system, tools 프롬프트 캐싱으로 응답 시간 단축토큰 비용 절감 효과를 얻음

Bedrock Prompt Caching 작동 원리

Prompt Caching반복적인 프롬프트를 캐시에 저장하여 LLM의 재계산을 방지한다. 구체적으로 Cache Checkpoint를 설정하고, TTL(5분) 내에서 캐시를 활용한다. 따라서 응답 시간 단축토큰 비용 절감을 동시에 달성할 수 있다.

Lambda vs ALB + EC2 아키텍처 비교

초기 Lambda + Gateway 구조는 타임아웃, SSE 미지원, Throttling 문제에 직면했다. 반면 ALB + EC2 구조는 SSE 통신을 지원하고 긴 타임아웃 설정을 가능하게 했다. 따라서 Prompt Caching 적용을 통해 Throttling 문제 해결안정적인 서비스 운영이 가능해졌다.

Prompt Caching 적용 시 고려사항

system, tools 프롬프트에 캐싱을 적용하여 성능 향상을 이끌어냈다. messages 프롬프트는 캐싱 효율이 낮아 제외했다. 따라서 프롬프트 prefix 일치TTL 관리가 중요하며, 향후 Bedrock의 세분화된 캐시 제어를 기대해볼 수 있다.

Chat DIC 프로젝트에서 AWS Bedrock Prompt Caching으로 성능 최적화하기