Amazon Bedrock, 비용 효율적으로 쓰려면?

by DD
3개월 전
조회수 24

Amazon Bedrock 기반 AI 서비스 구축 시, 토큰 사용량 관리최적화가 중요하며, 많은 고객사가 어려움을 겪고 있음

Regional, Geo CRIS, Global CRIS 등 3가지 Bedrock 엔드포인트 유형과 Quota Limit 증설 방법을 소개

CloudWatch 메트릭Invocation Logging을 활용한 사용량 모니터링 방법 제시

프롬프트 캐싱, 시맨틱 캐싱, 지능형 프롬프트 라우팅, 에이전트코어 메모리 등 Bedrock의 비용 최적화 기능 설명

Application별 사용량 측정을 위해 requestMetadata 활용 및 IAM Role 기반 분석 방법 제안

Amazon Bedrock 엔드포인트(Endpoint) 이해

Amazon Bedrock은 Regional, Geo CRIS, Global CRIS의 3가지 엔드포인트를 제공하며, 각기 다른 특징을 가진다.

Regional Endpoint: 단일 리전 내에서 모델 호출, 리전 장애 시 Failover 로직 직접 구현 필요

Geo CRIS: 특정 지리 내에서 자동 Failover 지원, 데이터 레지던시(Data Residency) 및 규제 준수에 유리

Global CRIS: 전 세계 리전으로 라우팅, 최대 가용성(Maximum Availability) 및 처리량(Throughput) 극대화, Geo CRIS 대비 50~300ms 레이턴시(Latency) 증가

CRIS는 Inference Profile을 통해 간접적으로 호출하며, 리전 장애 및 토큰 리밋(Token Limit) 문제를 회피할 수 있다.

Bedrock 사용량 모니터링 방법

Amazon Bedrock 사용량 모니터링은 CloudWatch 메트릭(Metrics)Invocation Logging을 통해 수행된다.

CloudWatch Metrics: 토큰 사용량(Token Usage), 호출 횟수, 지연 시간(Latency), 스로틀링(Throttling) 등 주요 지표 제공

Invocation Logging: 요청별 프롬프트/응답 메타데이터, 토큰 수 등 상세 로깅(Detailed Logging), S3 및 CloudWatch Logs에 저장

S3-Athena 연동: SQL 쿼리(SQL Query)를 통해 기간별, 모델별 토큰 사용량 분석 가능

Application별 측정: requestMetadata 활용 또는 IAM Role 기반 분석을 통해 애플리케이션별 사용량 측정 가능

Bedrock Quota Limit 증설 방법

Bedrock 사용량 증가에 따라 Quota Limit 증설이 필요하며, AWS Management Console을 통해 신청할 수 있다.

Service Quotas: AWS services > Amazon Bedrock에서 Quota name 검색 후 증설 신청

Support Case: Quota 증설 신청 시 자동 생성, 진행 상황 확인 가능

증설 확인: 증설 완료 후 Service Quotas 또는 AWS CLI를 통해 증설 값 확인

주의사항: Supported Regions and models 문서를 참고하여 Geo CRIS와 Global CRIS에 대한 모델별 지원 리전 확인 후 신청

Amazon Bedrock 비용 최적화 기법

Amazon Bedrock은 프롬프트 캐시(Prompt Cache), 시맨틱 캐시(Semantic Cache), 지능형 프롬프트 라우팅(Intelligent Prompt Routing), 에이전트코어 메모리 등 다양한 비용 최적화 기능을 제공한다.

프롬프트 캐시: 동일/유사 프롬프트 요청에 대해 기존 결과 재사용, 최대 90% 추론 비용 절감 및 85% 응답 속도 개선

시맨틱 캐시: 의미적으로 유사한 쿼리 식별, 최대 86% LLM 추론 비용 절감 및 88% 쿼리 응답 지연 시간 감소

지능형 프롬프트 라우팅: 동일 모델 패밀리 내 모델 간 요청 라우팅, 약 30% 비용 절감 및 응답 속도 개선, 15~25ms 라우팅 오버헤드 발생

에이전트코어 메모리: 단기/장기 메모리 분리, 토큰 사용량 최적화 및 과거 맥락 활용

Application별 Bedrock 사용량 측정

Application별 Bedrock 사용량 측정을 위해 requestMetadata를 활용하거나, IAM Role 기반 분석을 수행할 수 있다.

requestMetadata: Converse API의 requestMetadata 파라미터에 애플리케이션 식별 정보 추가

CloudWatch Logs: 로깅된 데이터에서 inputTokenCount, outputTokenCount 확인 및 애플리케이션 정보 분석

S3-Athena 연동: S3에 저장된 로그를 Athena 쿼리로 분석, 애플리케이션별 토큰 사용량 집계

IAM Role 활용: Application별 IAM Role 생성, EC2/ECS/Lambda에 할당, Application 코드 수정 없이 사용량 분석 가능

Amazon Bedrock 사용량 관리 및 최적화 하기

댓글 0

첫 번째 댓글을 남겨보세요!