GAIA 벤치마크 80.8% 달성, 오픈소스 연구 에이전트

by DD
5개월 전
조회수 6

MiroThinker는 연구 및 예측에 최적화된 오픈 소스 딥 리서치 에이전트(Deep Research Agent)

GAIA 벤치마크에서 60.2%의 Avg@8 점수를 달성하며 성능을 입증함

v1.5 버전은 256K 컨텍스트 윈도우(Context Window)를 지원하고, 최대 400개의 툴 호출 가능

30B 및 235B 파라미터 규모로 출시되어 다양한 연구 환경(Research Settings)에 대응

MiroFlow, MiroVerse 등 관련 프로젝트를 통해 연구 에이전트 훈련(Research Agent Training)을 지원

상호 작용적 스케일링(Interactive Scaling)을 통한 성능 향상

MiroThinker v1.0은 모델 크기 및 컨텍스트 길이 외에 상호 작용적 스케일링(Interactive Scaling)을 도입하여 성능을 향상시켰다. 이는 에이전트가 환경과의 더 깊고 빈번한 상호 작용을 처리하도록 훈련하는 방식으로, 오류 수정(Error Correction)궤적 개선(Trajectory Refinement)을 위해 환경 피드백과 외부 정보 획득을 활용한다. 이러한 접근 방식은 기존 에이전트와 차별화되는 MiroThinker의 핵심 기술이다.

다양한 벤치마크에서의 SOTA 달성

MiroThinker는 HLE-Text, BrowseComp, BrowseComp-ZH, GAIA-Val-165 등 다양한 벤치마크에서 최첨단(SOTA) 성능을 달성했다. 특히, v1.5-235B 모델은 GAIA-Val-165에서 80.8%의 점수를 기록하며, 오픈 소스 에이전트(Open-Source Agents) 중 최고 성능을 보였다. 이러한 결과는 MiroThinker가 일반적인 연구 작업에서 강력한 성능을 발휘함을 보여준다.

MiroFlow 프레임워크 및 MiroVerse 데이터셋 활용

MiroThinker는 MiroFlow라는 에이전트 프레임워크를 활용하여 툴 사용 에이전트 작업을 수행하며, 82.4%의 재현 가능한 GAIA 점수를 달성했다. 또한, 147k 샘플을 포함하는 프리미엄 오픈 소스 훈련 데이터셋인 MiroVerse를 통해 연구 에이전트 훈련을 지원한다. 이러한 생태계는 MiroThinker의 성능 향상에 기여하며, 연구자들이 쉽게 접근하고 활용할 수 있도록 설계되었다.

256K 컨텍스트 윈도우 및 400개 툴 호출 지원

MiroThinker v1.5는 256K 컨텍스트 윈도우(Context Window)를 지원하여 장기간의 추론과 심층적인 다단계 분석을 가능하게 한다. 또한, 최대 400개의 툴 호출을 처리하여 이전 오픈 소스 연구 에이전트보다 향상된 기능을 제공한다. 이러한 기능은 복잡한 연구 작업 수행에 필요한 유연성과 확장성을 제공하며, 다양한 연구 환경에 적합하도록 설계되었다.

MiroMindAI / MiroThinker