AI 'Computer Use' Gemini 2.5 模型可以自动浏览网站

雅加达 - Google 双子座 2.5 计算机使用模型是一个新的AI代理商,可以独立浏览 Web 并与用户界面 (UI) 进行交互。这些AI可以根据文本命令单击,键入和滚动页面。基于双子座 2.5 Pro 的构建,这项技术现在可供开发人员使用,并标志着向通用 AI 迈出的一大步,可以像人一样完成数字任务。

谷歌正在推出一款雄心勃勃的新AI模型,旨在以类似于人类的方式与互联网互动。被称为双子座2.5计算机使用,这种特殊的AI可以导航Web浏览器,点击按钮,填写表格甚至滚动页面 - 所有这些都是基于简单的文本命令。

这是创建AI代理商的重要一步,可以自动执行复杂的数字任务。此模型能够超越简单的聊天机器人响应,以积极与用户界面互动。

双子座 2.5 计算机使用的本质

基于双子座2.5 Pro功能,该AI模型通过在虚拟浏览器环境中操作而区分开来。与一些可以访问整个桌面操作系统的竞争对手AI代理商不同,Google的模型专门关注Web和移动界面。

这种方法使其能够处理以前需要人为干预或复杂的API集成的日常数字工作。想象一下,人工智能会填写详细的在线表格,导航拥挤的网站,或按列表向购物车添加项目-所有这些都无忧无虑。

双子座 2.5 计算机使用的本质在于二元反馈循环。当用户将任务交给AI时,模型首先收到请求,当前屏幕截图以及以前的操作历史记录。

然后,他处理此信息并提出特定的UI操作,例如点击链接,输入文本到列或向下滚动。执行该操作的客户端侧的代码,更新屏幕,新屏幕截图发送回AI。此循环一直持续到初始任务完成。

谷歌优化了此模型,特别是对于Web浏览器,但是,它也承诺控制移动应用程序。谷歌的内部测试已经使用此版本的模型进行任务,例如UI测试,这可以加速软件的开发。

性能和安全性重点

谷歌声称,双子座 2.5 Computer Use 模型 “在各种网络和移动基准基准中优先考虑领先的替代品”, 延迟较低。示威显示,人工智能有能力处理2048年玩游戏或浏览网站等任务。有趣的是,简短的测试甚至展示了它打破Google Search CAPTCHA的能力,这是非人人类用户的重要障碍。

然而,谷歌也强调安全性。该公司意识到与控制计算机的AI代理商相关的独特风险。恶意行为者有可能被滥用,甚至来自AI的意外行为也可能发生。有了这个想法,该公司已经将安全功能直接连接到模型中。开发人员还收到了防止人工智能实施高危行动的工具,例如在没有用户明确许可的情况下妥协系统安全或通过CAPTCHA。

目前,双子座 2.5 计算机使用通过 Google AI Studio 和 Vertex AI 的双子座 API 可供开发人员使用。消费者无法直接访问。尽管如此,这项技术还是为人工智能处理更多常规数字互动的未来铺平了道路。

The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)

Tag: gemini google artificial intelligence