Gemini 3 Flash, Agentic Vision으로 이미지 이해력 UP!

by DD
4개월 전
조회수 46

Gemini 3 Flash의 새로운 기능인 Agentic Vision은 시각적 추론과 코드 실행을 결합하여 이미지 기반 답변을 제공

Agentic Vision은 이미지를 능동적으로 탐구하는 에이전트(Agent) 방식으로, Think, Act, Observe 루프를 통해 작동

코드 실행을 통해 5-10% 품질 향상을 보이며, Zooming, Image annotation, Visual math 등 다양한 기능 지원

현재 Gemini API, Google AI Studio, Vertex AI에서 사용 가능하며, 향후 더 많은 모델과 도구로 확장 예정

Agentic Vision의 작동 원리: Think, Act, Observe

Agentic Vision은 기존의 정적인 이미지 처리 방식을 탈피하여, Think, Act, Observe의 순환 구조를 통해 이미지를 능동적으로 탐구한다.

Think 단계: 사용자 쿼리와 초기 이미지를 분석하여 다단계 계획(Multi-step Plan) 수립

Act 단계: Python 코드를 생성 및 실행하여 이미지 조작(자르기, 회전, 주석) 또는 분석(계산, 바운딩 박스 개수 세기) 수행

Observe 단계: 변환된 이미지를 모델의 컨텍스트 윈도우에 추가하여 더 나은 컨텍스트(Better Context)에서 최종 응답 생성

이러한 과정을 통해 모델은 시각적 증거에 기반한 답변을 제공한다.

코드 실행을 통한 성능 향상: 5-10% 품질 개선

Agentic Vision은 코드 실행을 통해 기존 모델의 한계를 극복하고, 시각적 이해력의 정확도를 향상시켰다. 특히, 5-10%의 품질 향상(Quality Boost)은 다양한 벤치마크에서 입증되었다.

PlanCheckSolver.com 사례: Gemini 3 Flash는 건축 도면 검증 플랫폼(Building Plan Validation Platform)에서 코드 실행을 통해 정확도를 5% 향상

Zooming 기능: 세밀한 디테일(Serial Number, Street Sign)을 파악하기 위해 이미지 확대

Visual Math: 복잡한 계산을 Python 환경에 위임하여 할루시네이션(Hallucination) 감소

이처럼 코드 실행은 모델의 시각적 추론 능력을 보완하고, 신뢰성 있는 결과를 도출하는 데 기여한다.

Agentic Vision의 활용 사례: Zooming, Annotation, Math

Agentic Vision은 다양한 시각적 이해 태스크(Visual Understanding Tasks)에 적용될 수 있으며, 개발자는 API를 통해 이러한 기능을 활용할 수 있다.

Zooming 및 Inspecting: 세밀한 디테일(Fine-grained Details)을 파악하기 위해 자동으로 이미지 확대(Zooming)

Image Annotation: 모델이 이미지에 직접 주석을 추가하여 추론의 근거(Reasoning Grounding)를 시각적으로 제공

Visual Math 및 Plotting: 고밀도 테이블(High-density Tables)을 분석하고, Matplotlib(Matplotlib)을 활용한 시각화(Visualization)

이러한 기능들은 Gemini 3 Flash의 활용 범위를 넓히고, 개발자에게 새로운 가능성을 제시한다.

Agentic Vision의 미래: 확장성과 잠재력

Agentic Vision은 아직 초기 단계이며, 향후 더 많은 기능과 모델로 확장될 예정이다.

Implicit Code-Driven Behaviors: Zooming, Rotating, Visual Math 등, 명시적인 프롬프트 없이도 자동 수행

More Tools: 웹 검색(Web Search) 및 Reverse Image Search 등, 외부 도구와의 통합을 통해 이해력 강화

More Model Sizes: Flash 외 다른 모델(Other Model Sizes)로 기능 확장

Agentic Vision은 Gemini 모델의 시각적 이해 능력을 획기적으로 향상시키고, AI 모델의 활용성을 극대화(Maximize Usability)할 것으로 기대된다.

Introducing Agentic Vision in Gemini 3 Flash