Google为Gemini 3 Flash推出Agentic Vision
雅加达 - 谷歌推出了新的Gemini 3 Flash模型的Agenttic Vision,这是人工智能代理(AI)的新功能。该功能允许AI主动调查图像。
谷歌解释说,这项技术将视觉推理与代码执行相结合,以检查微小细节。与通常猜测模糊细节的传统模型不同,Agenttic Vision将视觉视为一种调查过程。
该模型将以逐步的形式制定计划,以放大,裁剪和操纵图像。这样,AI模型就可以找到准确的视觉证据。
AI代理采用基于智能代理系统的“思考,行动和观察”方法。首先,AI模型将分析用户的请求,运行Python代码来操纵图像,然后在给出答案之前观察其新结果。
使用代码执行已被证明在各种AI视觉基准上提供了5%到10%的一致质量改进。当模型必须检测微芯片序列号或读取非常远的路标时,这种能力至关重要。
PlanCheckSolver.com,基于AI的建筑计划验证平台,已经使用了此功能。在采用中,Gemini 3 Flash可以剪切建筑细节部分并自动将其添加到上下文窗口中。
通过 Agentic Vision,Gemini 3 Flash 还可以通过注释或在图像上绘制边界框进行直接交互。这种称为“可视白板”的技术可以确保对象计算。
该模型声称在处理可视化数学和从非常密集的数据表创建图形方面非常智能。Gemini将识别原始数据,然后编写Python代码来生成专业的条形图,而无需概率地猜测数字。