Cloudflare Workers AI, Kimi K2.5 모델 지원으로 에이전트 개발 비용 절감!

by DD
2개월 전
조회수 86

Cloudflare Workers AI가 Moonshot AI의 Kimi K2.5 모델을 지원하며, 에이전트(Agent) 개발을 위한 통합 플랫폼(Unified Platform) 제공

Kimi K2.5 모델을 활용하여 코드 보안 검토 에이전트(Code Review Agent) 운영 결과, 비용 77% 절감 및 15개 이상의 문제점을 발견

Prefix CachingAsynchronous API 개선을 통해 에이전트(Agent)의 성능 향상(Performance Improvement) 및 개발 편의성 증대

Kimi K2.5 모델, Workers AI에 통합된 배경

본문에 따르면 Cloudflare는 에이전트(Agent) 개발을 위한 통합 플랫폼 구축을 목표로, Workers AI에서 대규모 언어 모델(Large Language Model, LLM) 지원을 시작했다. 기존에는 소규모 모델 위주로 지원했으나, Kimi K2.5와 같은 프론티어 모델(Frontier Model)의 등장으로 성능과 비용 효율성을 동시에 잡을 수 있게 되었다.

Kimi K2.5: 256k 컨텍스트 윈도우(Context Window) 지원, 멀티턴 툴 호출(Multi-turn Tool Calling), 비전 입력(Vision Inputs), 구조화된 출력(Structured Outputs) 지원

OpenCode 환경: Cloudflare 엔지니어들이 Kimi K2.5를 일상적인 코딩 작업(Coding Tasks)에 활용

코드 검토 에이전트(Code Review Agent): Kimi K2.5를 사용하여 코드베이스(Codebase)에서 15개 이상의 문제점 발견

Workers AI의 성능 최적화 기술

Cloudflare는 Kimi K2.5 모델의 성능 향상을 위해 자체 Infire 추론 엔진(Infire Inference Engine) 기반의 커스텀 커널(Custom Kernel)을 개발했다. 이를 통해 GPU 활용률을 높이고, 모델의 전반적인 성능을 개선했다.

커스텀 커널(Custom Kernel): 모델 성능 향상 및 GPU 활용률 최적화

데이터 병렬화(Data Parallelization), 텐서 병렬화(Tensor Parallelization), 전문가 병렬화(Expert Parallelization) 등 다양한 병렬화 기술 적용

분리된 프리필(Disaggregated Prefill): 프리필(Prefill) 단계와 생성(Generation) 단계를 분리하여 처리량(Throughput) 증가 및 GPU 활용률 향상

이러한 최적화 기술은 ML 엔지니어(Machine Learning Engineer), DevOps 전문가(DevOps Expert), SRE(Site Reliability Engineer) 없이도 Workers AI 플랫폼에서 쉽게 활용할 수 있다.

Prefix Caching을 활용한 비용 절감

Workers AI는 에이전트(Agent)의 성능 향상과 비용 절감을 위해 Prefix Caching 기술을 제공한다. 에이전트(Agent)는 일반적으로 긴 프롬프트(Prompt)를 사용하므로, Prefix Caching을 통해 중복되는 토큰(Token) 처리 비용을 줄일 수 있다.

Prefix Caching: 이전 요청의 입력 텐서(Input Tensors)를 캐싱(Caching)하여 프리필(Prefill) 단계의 계산량 감소

x-session-affinity 헤더: 동일한 모델 인스턴스(Model Instance)로 라우팅(Routing)하여 캐시 적중률(Cache Hit Ratio) 향상

캐시된 토큰(Cached Tokens)에 대한 할인 제공: 입력 토큰(Input Tokens) 대비 저렴한 가격으로 제공

결과적으로 Prefix Caching은 TTFT(Time to First Token) 단축TPS(Tokens Per Second) 향상을 통해 에이전트(Agent)의 전반적인 성능을 개선한다.

Asynchronous API를 통한 안정적인 추론

Workers AI는 서버리스(Serverless) 환경의 한계를 보완하기 위해 Asynchronous API를 제공한다. 동기식(Synchronous) 요청의 경우, 트래픽(Traffic) 과부하로 인해 요청 처리에 실패할 수 있지만, Asynchronous API를 사용하면 안정적으로 추론을 수행할 수 있다.

Pull-based 시스템: 대기열(Queue)에 있는 요청을 처리할 수 있는 용량이 확보되는 즉시 처리

Asynchronous API: Out of Capacity 오류 방지 및 안정적인 추론(Stable Inference) 보장

이벤트 알림(Event Notifications): 추론 완료 시 알림을 받아 폴링(Polling) 불필요

Asynchronous API는 실시간(Real-time)이 아닌 코드 검토(Code Scanning) 에이전트(Agent)나 연구 에이전트(Research Agent)와 같은 워크로드(Workload)에 적합하다.

Powering the agents: Workers AI now runs large models, starting with Kimi K2.5