구글, 제미니 3 플래시에 에이제니틱 비전 출시

구글은 지미니 3 플래시 모델에 새로운 인공 지능 에이전트(AI) 기능인 에이전틱 비전(Agentic Vision)을 발표했다. 이 기능을 통해 AI가 이미지를 적극적으로 조사할 수 있습니다.

구글은 이 기술이 시각적 추론과 코드 실행을 결합하여 작은 세부 사항을 검사한다고 설명했습니다. 흔히 불분명한 세부 사항을 추측하는 전통적인 모델과는 달리, Agentic Vision은 시력을 조사 과정으로 다룹니다.

이 모델은 이미지를 확대, 잘라내고 조작하는 단계별 계획을 수립합니다. 그렇게하면 AI 모델이 정확한 시각적 증거를 찾을 수 있습니다.

이 AI 에이전트는 지능형 에이전트 시스템을 기반으로하는 '생각, 행동 및 관찰'방법을 사용합니다. 첫째, AI 모델은 사용자 요청을 분석하고, 이미지를 조작하기 위해 파이썬 코드를 실행하고, 답변을 제공하기 전에 새로운 결과를 관찰합니다.

코드 실행을 사용하면 다양한 AI 비전 척도에서 5 ~ 10 %의 일관된 품질 향상을 보장합니다. 이 기능은 모델이 마이크로 칩 일련 번호를 감지하거나 매우 멀리 떨어진 표지판을 읽어야 할 때 매우 중요합니다.

건축 계획 검증 플랫폼인 PlanCheckSolver.com은 이 기능을 사용했습니다. 이 도입에서 Gemini 3 Flash는 건축 세부 사항을 잘라내어 컨텍스트 창에 자동으로 추가 할 수 있습니다.

Agentic Vision을 사용하면 Gemini 3 Flash는 이미지에 주석을 달거나 경계 상자를 그리면서 직접 상호 작용할 수 있습니다. '시각적 칠판'이라고 불리는이 기술은 객체 계산을 보장 할 수 있습니다.

이 모델은 시각적 수학을 처리하고 매우 밀도가 높은 데이터 테이블에서 그래프를 만드는 데 매우 똑똑하다고 주장됩니다. Gemini는 원시 데이터를 식별하고 확률적으로 숫자를 추측하지 않고도 전문적인 막대 그래프를 생성하기 위해 파이썬 코드를 작성합니다.