Gemini 2.5 permet de naviguer de manière indépendante sur le site

ARTA - Le modèle Google Gemini 2.5 utilisateur d’ordinateur est un nouvel agent d’IA capable de naviguer sur le Web et d’interagir avec l’interface utilisateur (UI) de manière indépendante. Cet AI peut cliquer, taper et glisser des pages sur des commandes texte. Construit sur Gemini 2.5 Pro, cette technologie est maintenant disponible pour les développeurs et marque un grand pas vers une AI à destination générale qui peut résoudre les tâches numériques comme humaine.

Google a lancé un nouveau ambitieux modèle d’IA, conçu pour interagir avec Internet de manière très humaine. Appelé l’utilisation informatique Gemini 2.5, cetteIA spéciale peut naviguer sur des navigateurs Web, cliquer sur des boutons, remplir des formulaires et même broyer des pages - tout sur une base de simples commandes texte.

Il s’agit d’une étape importante vers la création d’agents d’IA capables de effectuer de manière autonome des tâches numériques complexes. Ce modèle est capable de dépasser la réponse du simple chat boot à s’engager activement à l’interface utilisateur.

du système d'utilisation par ordinateur Gemini 2.5

construit sur les capacités de Gemini 2.5 Pro, ce modèle d’IA se distingue en fonctionnant dans un environnement de navigateur virtuel. Contrairement à plusieurs agents d’IA concurrents qui peuvent accéder à tous les systèmes d’exploitation de bureau, ce modèle de Google se concentre spécifiquement sur l’interface Web et mobile.

il, qui lui permet de faire face aux tâches numériques quotidiennes qui nécessitaient auparavant des interventions humaines ou des intégrations sophistiquées de l’interface. Imaginez un artisanal remplissant un formulaire en ligne détaillé, naviguer sur des sites Web bondés ou ajouter des articles à vos coquilles d’achat basées sur la liste – tout sans beaucoup de compliques.

de l’utilisation informatique Gemini 2.5 réside dans un boucle de réaction itératif. Lorsque un utilisateur donne une tâche à l’IA, le modèle reçoit d’abord des demandes, des captures d’écran du écran actuel et des antécédents d’action antérieurs.

, il a ensuite traité ces informations et a proposé des actions utilisateur spécifiques, telles que cliquer sur un lien, taper du texte dans une colonne ou rouler vers le bas. Le code du côté du client exécute l’action, l’écran est mis à jour et une nouvelle capture d’écran est envoyée à l’IA. Ce Loop se poursuit jusqu’à ce que la tâche initiale soit achevée.

Google a optimisé ce modèle en particulier pour les navigateurs Web, cependant, il promet également de contrôler des applications cellulaires. Les tests internes de Google ont déjà utilisé une version de ce modèle pour des tâches telles que le test d’UI, qui accélèrent le développement logiciel.

sur la performance et la sécurité

Google affirme que le modèle utilisateur ordinateur Gemini 2.5 « préfère une alternative leader à diverses dimensions Web et mobile » avec une variété de variétés de variétés. Les manifestations montrent qu’IA s’acquite compétemment de tâches telles que de jouer à des jeux 2048 ou de passer sur des sites Web. Fait intéressant, un court test a même montré sa capacité à briser la recherche de Google xipTCHA, un obstacle important pour les utilisateurs non humains.

, Google a également souligné la sécurité. La société est consciente des risques uniques associés aux agents d’IA qui contrôleront les ordinateurs. Les acteurs malveillants peuvent potentiellement s’abuser, ou même un comportement inattendu de l’IA peut se produire. Avec cette pensée, l’entreprise a intégré des fonctionnalités de sécurité directement dans le modèle. Les développeurs reçoivent également des outils pour empêcher l’IA de mener des actions à haut risque, telles que de compromettre la sécurité du système ou de passer capTCHA sans l’autorisation explicite de l’utilisateur.

anis, une utilisation informatique de Gemini 2.5 est actuellement disponible pour les développeurs via le Binary II dans le Studio Google AI et Vertex AI. Pas encore directement accessible aux consommateurs. Néanmoins, cette technologie ouvre la voie pour un futur où l’IA gère plus de nos interactions numériques de routine.

The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)

Tag: gemini google artificial intelligence