구글은 지미니 3 플래시 모델에 새로운 인공 지능 에이전트(AI) 기능인 에이전틱 비전(Agentic Vision)을 발표했다. 이 기능을 통해 AI가 이미지를 적극적으로 조사할 수 있습니다.

구글은 이 기술이 시각적 추론과 코드 실행을 결합하여 작은 세부 사항을 검사한다고 설명했습니다. 흔히 불분명한 세부 사항을 추측하는 전통적인 모델과는 달리, Agentic Vision은 시력을 조사 과정으로 다룹니다.

이 모델은 이미지를 확대, 잘라내고 조작하는 단계별 계획을 수립합니다. 그렇게하면 AI 모델이 정확한 시각적 증거를 찾을 수 있습니다.

이 AI 에이전트는 지능형 에이전트 시스템을 기반으로하는 '생각, 행동 및 관찰'방법을 사용합니다. 첫째, AI 모델은 사용자 요청을 분석하고, 이미지를 조작하기 위해 파이썬 코드를 실행하고, 답변을 제공하기 전에 새로운 결과를 관찰합니다.

코드 실행을 사용하면 다양한 AI 비전 척도에서 5 ~ 10 %의 일관된 품질 향상을 보장합니다. 이 기능은 모델이 마이크로 칩 일련 번호를 감지하거나 매우 멀리 떨어진 표지판을 읽어야 할 때 매우 중요합니다.

건축 계획 검증 플랫폼인 PlanCheckSolver.com은 이 기능을 사용했습니다. 이 도입에서 Gemini 3 Flash는 건축 세부 사항을 잘라내어 컨텍스트 창에 자동으로 추가 할 수 있습니다.

Agentic Vision을 사용하면 Gemini 3 Flash는 이미지에 주석을 달거나 경계 상자를 그리면서 직접 상호 작용할 수 있습니다. '시각적 칠판'이라고 불리는이 기술은 객체 계산을 보장 할 수 있습니다.

이 모델은 시각적 수학을 처리하고 매우 밀도가 높은 데이터 테이블에서 그래프를 만드는 데 매우 똑똑하다고 주장됩니다. Gemini는 원시 데이터를 식별하고 확률적으로 숫자를 추측하지 않고도 전문적인 막대 그래프를 생성하기 위해 파이썬 코드를 작성합니다.


The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)