Partager:

JAKARTA - Google a introduit Agentic Vision, une nouvelle capacité d’agents d’intelligence artificielle (IA) pour le modèle Gemini 3 Flash. Cette capacité permet à l’IA d’explorer activement les images.

Google explique que cette technologie combine l'infernée visuelle avec l'écution de code pour examiner les petits détails. Contrairement aux méthodes traditionnelles qui tentent souvent de deviner des détails obscurs, Agentic Vision traite la vision comme un processus d'investigation.

Ce modèle formulera un plan sous forme de étapes pour agrandir, couper et manipuler des images. Ainsi, le modèle IA peut trouver des preuves visuelles précises.

Cet agent IA utilise la méthode « Pensez, agissez et observez » qui est basée sur un système d'agents intelligents. Premièrement, le modèle IA analysera la demande de l'utilisateur, exécutera du code Python pour manipuler l'image, puis observera son nouveau résultat avant de donner une réponse.

L'utilisation de l'exécution de code a prouvé d'améliorer de 5 à 10 % la qualité constante de divers indicateurs de vision d'IA. Cette capacité est cruciale lorsque le modele doit détecter un numero de serie de microprocesseur ou de lire un panneau de route qui est situé très loin.

PlanCheckSolver.com, une plate-forme de validation de plans de construction basée sur l’IA, a utilisé cette fonction. Dans son adoption, Gemini 3 Flash peut couper des sections de détails de construction et les ajouter automatiquement dans une fenêtre de contexte.

Avec Agentic Vision, Gemini 3 Flash peut également interagir directement en annotant ou dessinant des rectangles sur une image. Cette technique, appelée « tableau visuel », peut garantir le calcul des objets.

Ce modèle est censé être très intelligent dans le traitement de la mathematique visuelle et la création de graphiques à partir de tableaux de données très dense. Gemini identifie les données brutes, puis écrit du code Python pour produire des graphiques de barres professionnels sans deviner les chiffres en probabilité.


The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)