Kimi K2.5, 오픈 소스 모델의 새로운 지평을 열다!

Kimi K2.5는 Agent Swarms 기능을 통해 여러 Sub-Agent를 활용하여 복잡한 작업을 처리하며, OpenAI의 Browser Comp 벤치마크에서 뛰어난 성능을 보임

이미지 처리 능력 향상으로 이미지 벤치마크에서 Gemini 및 ChatGPT와 어깨를 나란히 하며, 특히 비디오 벤치마크에서 Gemini와 유사한 수준의 성능을 기록

코드 생성 능력은 주요 모델에는 미치지 못하지만, Opus 4.5 및 GPT-5.2와 근접한 수준의 성능을 보이며, 특히 할루시네이션(Hallucination) 발생률이 크게 감소

Kimi K2.5는 오픈 소스 모델로서, T3.chat에서 지원되며, 저렴한 비용으로 사용 가능

Kimi K2.5의 주요 특징: Agent Swarms

발표자는 Kimi K2.5의 가장 혁신적인 기능으로 Agent Swarms를 꼽으며, 이 기능을 통해 최대 100개의 Sub-Agent를 생성하여 작업을 병렬 처리한다고 설명한다. SwiftUI 스크롤 문제 해결을 시도하는 과정에서 Agent Swarms의 활용을 시도했지만, CLI 환경에서는 지원되지 않아 실패했음을 언급한다. 발표자는 Agent Swarms를 통해 다양한 작업의 병렬 처리가 가능해짐을 강조한다.

벤치마크 분석: 성능 및 비용 효율성

영상에서는 Kimi K2.5가 HellaSwag, HumanEval, Browser Comp 등의 벤치마크에서 뛰어난 성능을 보였다고 언급하며, 특히 Browser Comp에서 OpenAI의 자체 벤치마크를 능가하는 결과를 보여주었다고 강조한다. 또한, Kimi K2.5는 비용 효율성 측면에서도 강점을 가지며, 다른 모델에 비해 저렴한 비용으로 사용 가능하다고 설명한다. 발표자는 O3 Pro가 스케이트 벤치에서 더 나은 비용 효율성을 보였다는 점도 언급한다.

이미지 및 비디오 처리 능력의 진화

발표자는 Kimi K2.5가 시각적 인식 능력을 갖추게 되었으며, 이미지 벤치마크에서 Gemini 및 ChatGPT와 경쟁할 만한 수준에 도달했다고 강조한다. 특히, 비디오 벤치마크에서 Gemini와 유사한 수준의 성능을 보이며, 비디오 MMLU에서도 좋은 결과를 얻었다고 언급한다. 발표자는 Kimi K2.5가 이미지 및 비디오 처리 분야에서 오픈 소스 모델의 한계를 극복하고 있음을 강조한다.

코드 생성 능력 및 할루시네이션 감소

발표자는 Kimi K2.5의 코드 생성 능력이 주요 모델에는 미치지 못하지만, Opus 4.5 및 GPT-5.2와 근접한 수준의 성능을 보인다고 설명한다. 또한, Kimi K2.5는 할루시네이션(Hallucination) 발생률이 크게 감소하여, AAE(AAmniscence) 지수에서 -11점을 기록했다고 강조한다. 발표자는 Kimi K2.5가 코드 생성 및 정보 정확성 측면에서 개선된 모습을 보여주고 있다고 평가한다.

라이선스 및 사용상의 주의사항

영상에서는 Kimi K2.5가 수정된 MIT 라이선스를 따른다고 언급하며, 대규모 기업의 경우 사용 시 Kimi K2.5를 명시해야 하는 조항이 있음을 설명한다. 발표자는 Kimi K2.5의 사용량 제한에 대해 언급하며, T3.chat을 통해 Kimi K2.5를 사용할 경우, 사용량 제한에 유의해야 한다고 강조한다. 발표자는 Kimi K2.5의 오픈 소스 모델로서의 가치와 한계를 동시에 언급한다.