ジェミニ2.5「コンピュータ使用」AIモデルは、ウェブサイトを独自にナビゲートできます

ジャカルタ-Googleジェミニ2.5コンピュータ使用モデルは、Webをサーフィンし、ユーザーインターフェイス(UI)と独立して対話できる新しいAIエージェントです。このAIは、テキストコマンドに基づいてページをクリック、入力、スクロールできます。Gemini 2.5 Proに基づいて構築されたこのテクノロジーは、開発者が利用できるようになり、人間のようにデジタルタスクを完了できる一般的なデスティネーションAIへの大きな一歩を踏み出しています。

Googleは、インターネットと人間に非常によく似た方法で対話するように設計された野心的な新しいAIモデルを展開しています。Gemini 2.5コンピュータ使用と呼ばれるこのカスタムAIは、Webブラウザをナビゲートしたり、ボタンをクリックしたり、フォームに記入したり、ページをスクロールしたりすることもできます - すべて簡単なテキストコマンドに基づいています。

これは、複雑なデジタルタスクを自律的に実行できるAIエージェントを作成するための重要なステップです。このモデルは、シンプルなチャットボットの応答を超えて、ユーザーインターフェイスに積極的に関与することができます。

ジェミニ2.5コンピュータ使用の中核

Gemini 2.5 Proの機能に基づいて構築されたこのAIモデルは、仮想ブラウザ環境で動作することと区別されます。デスクトップオペレーティングシステム全体にアクセスできる一部の競合他社のAIエージェントとは異なり、Googleモデルは特にWebとモバイルインターフェイスに焦点を当てています。

このアプローチにより、以前は人間の介入や複雑なAPI統合を必要としていた日常のデジタルジョブに対処できます。AIが詳細なオンラインフォームに記入したり、混雑したWebサイトをナビゲートしたり、リストに基づいてショッピングカートにアイテムを追加したりすることを想像してみてください - すべて複雑さなしです。

ジェミニ2.5コンピュータ使用の中核は、イテレティブフィードバックループにあります。ユーザーがAIにタスクを割り当てると、モデルは最初にリクエスト、現在の画面のスクリーンショット、および以前のアクション履歴を受け取ります。

次に、この情報を処理し、リンクのクリック、列にテキストを入力する、下にスクロールするなどの特定のUIアクションを提案します。クライアント側のコードがアクションを実行し、画面が更新され、新しいスクリーンショットがAIに送り返されます。このループは、最初のタスクが完了するまで続きます。

Googleはこのモデルを主にWebブラウザに最適化しましたが、モバイルアプリケーションの制御も約束しています。Googleの内部テストでは、このモデルバージョンをUIテストなどのタスクに使用し、ソフトウェア開発を加速しています。

パフォーマンスとセキュリティに焦点を当てる

Googleは、Gemini 2.5コンピュータ使用モデルは、遅延が短いため、「さまざまなWebおよびモバイルベンチマークの主要な代替手段を上回る」と主張しています。デモは、AIが2048年のゲームをプレイしたり、Webサイトを閲覧したりするなどのタスクを有能に処理することを示しています。興味深いことに、短いテストは、非ヒューマンユーザーにとって重要なハードルであるGoogle検索のCAPTCHAを解読する能力さえ示しています。

しかし、Googleは安全性も重視しています。同社は、コンピュータを制御するAIエージェントに関連するユニークなリスクを認識しています。悪意のあるアクターは悪用する可能性がある場合、またはAIからの予期せぬ行動が発生する可能性があります。これを念頭に置いて、同社はセキュリティ機能をモデルに直接組み込んでいます。開発者はまた、AIがシステムセキュリティを侵害したり、ユーザーからの明示的な許可なしにCAPTCHAに合格したりするなどの高リスクのアクションを実行するのを防ぐためのツールを受け取りました。

現在、ジェミニ2.5コンピュータ使用は、Google AIスタジオとVertex AIのジェミニAPIを介して開発者が利用できます。消費者はまだ直接アクセスできません。それにもかかわらず、このテクノロジーは、AIがより日常的なデジタルインタラクションを処理する未来への道を開きます。