Gemini 3.1 Pro, 똑똑하지만 쓰기 어렵다?

by DD
3개월 전
조회수 0

Gemini 3.1 Pro가 기존 모델 대비 AI Index에서 압도적인 점수를 기록하며, 비용 효율성 또한 우수함을 강조함

Cursor CLI를 활용한 Gemini 3.1 Pro의 성능 테스트에서 도구 호출(Tool Calling) 문제와 사용성 저하를 지적함

Haiku 4.5가 도구 호출에서 뛰어난 일관성을 보이며, Anthropic의 모델이 일관성에 집중함을 언급함

Gemini 3.1 Pro가 벤치마크에서 우수한 성적을 거두지만, 실제 사용 시 잦은 오류와 불안정성을 보인다고 비판함

Gemini 3.1 Pro의 압도적인 성능

발표자는 Gemini 3.1 Pro가 기존 모델 대비 AI Index에서 4점 이상 높은 점수를 기록하며, OpenAI의 Opus 4.6 Max보다 뛰어난 성능을 보였다고 언급한다. 또한, Opus 4.6 Max의 절반 가격으로 이와 같은 성능을 달성했다는 점을 강조하며, 비용 효율성(Cost Efficiency)을 높이 평가한다. 발표자는 Gemini 3.1 Pro가 Arc AGI 2 벤치마크에서 78%의 높은 점수를 기록한 점을 언급하며, 기존 LLM의 한계를 뛰어넘는 성능을 보여준다고 설명한다.

Cursor CLI를 활용한 Gemini 3.1 Pro 사용성 평가

발표자는 Cursor CLI를 사용하여 Gemini 3.1 Pro의 성능을 테스트하며, 도구 호출(Tool Calling)과 관련된 문제점을 지적한다. 발표자는 Gemini 3.1 Pro가 도구 선택(Tool Selection) 단계에서 어려움을 겪고, 파일 편집 오류와 같은 문제를 빈번하게 발생시킨다고 설명한다. 또한, Gemini 3.1 Pro가 예상치 못한 모델 변경CLI의 불안정성으로 인해 실제 사용에 어려움이 있다고 비판한다.

Haiku 4.5의 도구 호출 일관성

발표자는 Haiku 4.5가 도구 호출에서 뛰어난 일관성을 보이며, Anthropic의 모델이 도구 호출의 일관성에 집중하고 있다고 언급한다. 발표자는 Haiku 4.5가 도구 호출의 성공적인 사용(Successful Usage)에 초점을 맞추고 있으며, 도구의 작동 방식(Tool Functionality)을 정확하게 이해하고 활용한다고 설명한다. 발표자는 Gemini 3.1 Pro와 Haiku 4.5의 차이점을 강조하며, 모델의 성능과 사용성 간의 균형의 중요성을 강조한다.

Gemini 3.1 Pro의 벤치마크와 실제 사용의 괴리

발표자는 Gemini 3.1 Pro가 벤치마크에서 뛰어난 성적을 거두지만, 실제 사용 시에는 잦은 오류와 불안정성을 보인다고 비판한다. 발표자는 Gemini 3.1 Pro가 잠재적인 루프(Potential Loop)에 빠지는 경향이 있으며, 파일 읽기(File Reading)와 관련된 문제도 발생한다고 지적한다. 발표자는 Gemini 3.1 Pro의 CLI의 문제점을 언급하며, 벤치마크 결과와 실제 사용 경험 간의 괴리를 강조한다.

Gemini 3.1 Pro is the smartest model ever made