GAIA 벤치마크 80.8% 달성, 오픈소스 연구 에이전트

MiroThinker는 연구 및 예측에 최적화된 오픈 소스 딥 리서치 에이전트(Deep Research Agent)임

GAIA 벤치마크에서 60.2%의 Avg@8 점수를 달성하며 성능을 입증함

v1.5 버전은 256K 컨텍스트 윈도우(Context Window)를 지원하고, 최대 400개의 툴 호출 가능

30B 및 235B 파라미터 규모로 출시되어 다양한 연구 환경(Research Settings)에 대응

MiroFlow, MiroVerse 등 관련 프로젝트를 통해 연구 에이전트 훈련(Research Agent Training)을 지원

상호 작용적 스케일링(Interactive Scaling)을 통한 성능 향상

MiroThinker v1.0은 모델 크기 및 컨텍스트 길이 외에 상호 작용적 스케일링(Interactive Scaling)을 도입하여 성능을 향상시켰다. 이는 에이전트가 환경과의 더 깊고 빈번한 상호 작용을 처리하도록 훈련하는 방식으로, 오류 수정(Error Correction) 및 궤적 개선(Trajectory Refinement)을 위해 환경 피드백과 외부 정보 획득을 활용한다. 이러한 접근 방식은 기존 에이전트와 차별화되는 MiroThinker의 핵심 기술이다.

다양한 벤치마크에서의 SOTA 달성

MiroThinker는 HLE-Text, BrowseComp, BrowseComp-ZH, GAIA-Val-165 등 다양한 벤치마크에서 최첨단(SOTA) 성능을 달성했다. 특히, v1.5-235B 모델은 GAIA-Val-165에서 80.8%의 점수를 기록하며, 오픈 소스 에이전트(Open-Source Agents) 중 최고 성능을 보였다. 이러한 결과는 MiroThinker가 일반적인 연구 작업에서 강력한 성능을 발휘함을 보여준다.

MiroFlow 프레임워크 및 MiroVerse 데이터셋 활용

MiroThinker는 MiroFlow라는 에이전트 프레임워크를 활용하여 툴 사용 에이전트 작업을 수행하며, 82.4%의 재현 가능한 GAIA 점수를 달성했다. 또한, 147k 샘플을 포함하는 프리미엄 오픈 소스 훈련 데이터셋인 MiroVerse를 통해 연구 에이전트 훈련을 지원한다. 이러한 생태계는 MiroThinker의 성능 향상에 기여하며, 연구자들이 쉽게 접근하고 활용할 수 있도록 설계되었다.

256K 컨텍스트 윈도우 및 400개 툴 호출 지원

MiroThinker v1.5는 256K 컨텍스트 윈도우(Context Window)를 지원하여 장기간의 추론과 심층적인 다단계 분석을 가능하게 한다. 또한, 최대 400개의 툴 호출을 처리하여 이전 오픈 소스 연구 에이전트보다 향상된 기능을 제공한다. 이러한 기능은 복잡한 연구 작업 수행에 필요한 유연성과 확장성을 제공하며, 다양한 연구 환경에 적합하도록 설계되었다.