Gemini API, Flex/Priority 계층으로 비용 절감과 안정성 확보!

by DD
2개월 전
조회수 18

Gemini API에 비용 최적화 계층인 Flex Inference와 고가용성 계층인 Priority Inference를 추가하여 개발자가 비용과 안정성을 제어할 수 있도록 지원

Flex Inference는 배치 처리(Batch Processing) 없이 표준 동기식 인터페이스(Synchronous Interface)를 통해 50% 비용 절감을 제공하며, 지연 시간에 덜 민감한 워크로드에 적합

Priority Inference최고 수준의 안정성(Highest Reliability)을 보장하며, 트래픽 초과 시 Standard tier로 자동 전환(Graceful Downgrade)을 통해 서비스 연속성을 유지

두 계층 모두 단일 인터페이스(Unified Interface)를 통해 제어 가능하며, `service_tier` 파라미터를 통해 손쉽게 설정 가능

Flex와 Priority: Gemini API의 새로운 아키텍처

본문에 따르면 Gemini API는 Flex InferencePriority Inference를 통해 비용과 안정성을 모두 잡는 새로운 아키텍처를 제시한다. Flex는 비용 최적화(Cost Optimization)를 위해 설계되었으며, 배치 처리 없이 표준 동기식 인터페이스를 제공한다. 반면, Priority는 최고 수준의 안정성(Highest Reliability)을 보장하며, 트래픽 초과 시 Standard tier로 자동 전환된다. 두 계층 모두 `service_tier` 파라미터를 통해 손쉽게 설정할 수 있으며, 개발자는 워크로드의 특성에 따라 적절한 계층을 선택할 수 있다.

Flex Inference: 50% 비용 절감의 기술적 배경

Flex Inference는 50%의 가격 절감(Price Savings)을 제공하며, 이는 요청의 중요도를 낮춰(downgrading criticality) 달성된다. Flex는 배치 API와 달리 동기식 인터페이스(Synchronous Interface)를 사용하므로, 입력/출력 파일 관리나 작업 완료를 위한 폴링(Polling)이 필요 없다. Flex는 CRM 업데이트(CRM Updates), 대규모 연구 시뮬레이션(Large-scale Research Simulations), 에이전트 워크플로우(Agentic Workflows)와 같이 지연 시간에 덜 민감한 워크로드에 적합하다. Flex tier는 모든 유료 티어에서 사용 가능하며, GenerateContent 및 Interactions API 요청에 적용된다.

Priority Inference: 고가용성 보장의 기술적 특징

Priority Inference는 최고 수준의 안정성(Highest Reliability)을 제공하며, 이는 트래픽이 피크(Peak Load)일 때도 중요한 요청이 우선 처리되도록 보장한다. 트래픽이 Priority 제한을 초과하면, 요청은 실패하는 대신 Standard tier로 자동 전환(Graceful Downgrade)되어 서비스 연속성(Business Continuity)을 유지한다. API 응답은 요청을 처리한 티어를 표시하여 성능 및 비용에 대한 투명성(Transparent Response)을 제공한다. Priority Inference는 Tier 2/3 유료 프로젝트 사용자를 대상으로 GenerateContent API 및 Interactions API 엔드포인트에서 사용할 수 있다.

Gemini API 생태계에 미치는 영향

Flex와 Priority 계층의 도입은 Gemini API 생태계에 큰 영향을 미칠 것으로 예상된다. 개발자는 단일 인터페이스(Unified Interface)를 통해 비용과 안정성을 세밀하게 제어할 수 있게 되며, 이는 다양한 AI 애플리케이션 개발을 더욱 용이하게 할 것이다. 특히, Flex는 비용 효율적인 AI 모델 활용(Cost-effective AI Model Usage)을 가능하게 하여, AI 기술의 대중화를 가속화할 수 있다. Priority는 실시간 서비스(Real-time Services)의 안정성을 보장하여, 사용자 경험을 향상시키는 데 기여할 것이다.

New ways to balance cost and reliability in the Gemini API