AI 'Computer Use' Gemini 2.5 模型 可以自动浏览网站

雅加达 - Google 双子座 2.5 计算机使用 模型 是一个新的AI代理商,可以独立浏览 Web 并与用户界面 (UI) 进行交互。这些AI可以根据文本命令单击,键入和滚动页面。 基于双子座 2.5 Pro 的构建,这项技术现在可供开发人员使用,并标志着向通用 AI 迈出的一大步,可以像人一样完成数字任务。

谷歌正在推出一款雄心勃勃的新AI模型,旨在以类似于人类的方式与互联网互动。被称为双子座2.5计算机使用,这种特殊的AI可以导航Web浏览器,点击按钮,填写表格甚至滚动页面 - 所有这些都是基于简单的文本命令。

这是创建AI代理商的重要一步,可以自动执行复杂的数字任务。此模型能够超越简单的聊天机器人响应,以积极与用户界面互动。

双子座 2.5 计算机使用的本质

基于双子座2.5 Pro功能,该AI模型通过在虚拟浏览器环境中操作而区分开来。与一些可以访问整个桌面操作系统的竞争对手AI代理商不同,Google的模型专门关注Web和移动界面。

这种方法使其能够处理以前需要人为干预或复杂的API集成的日常数字工作。想象一下,人工智能会填写详细的在线表格,导航拥挤的网站,或按列表向购物车添加项目-所有这些都无忧无虑。

双子座 2.5 计算机使用的本质在于二元反馈循环。当用户将任务交给AI时,模型首先收到请求,当前屏幕截图以及以前的操作历史记录。

然后,他处理此信息并提出特定的UI操作,例如点击链接,输入文本到列或向下滚动。执行该操作的客户端侧的代码,更新屏幕,新屏幕截图发送回AI。此循环一直持续到初始任务完成。

谷歌优化了此模型,特别是对于Web浏览器,但是,它也承诺控制移动应用程序。谷歌的内部测试已经使用此版本的模型进行任务,例如UI测试,这可以加速软件的开发。

性能和安全性重点

谷歌声称,双子座 2.5 Computer Use 模型 “在各种网络和移动基准基准中优先考虑领先的替代品”, 延迟较低。 示威显示,人工智能有能力处理2048年玩游戏或浏览网站等任务。有趣的是,简短的测试甚至展示了它打破Google Search CAPTCHA的能力,这是非人人类用户的重要障碍。

然而,谷歌也强调安全性。该公司意识到与控制计算机的AI代理商相关的独特风险。恶意行为者有可能被滥用,甚至来自AI的意外行为也可能发生。有了这个想法,该公司已经将安全功能直接连接到模型中。开发人员还收到了防止人工智能实施高危行动的工具,例如在没有用户明确许可的情况下妥协系统安全或通过CAPTCHA。

目前,双子座 2.5 计算机使用 通过 Google AI Studio 和 Vertex AI 的双子座 API 可供开发人员使用。 消费者无法直接访问。尽管如此,这项技术还是为人工智能处理更多常规数字互动的未来铺平了道路。