Google révolutionne l'analyse d'images avec Agentic Vision : une IA plus humaine

La technologie d’intelligence artificielle franchit un cap décisif dans l’analyse d’images. Google vient d’annoncer une innovation majeure qui permettra aux systèmes d’IA d’examiner les images de manière plus approfondie et interactive, à la façon d’un œil humain capable d’analyser, de zoomer et d’interpréter activement ce qu’il observe.

Une nouvelle approche de la vision artificielle

Mardi 27 janvier 2026, le géant de la tech a officialisé dans un billet de blog le lancement d’Agentic Vision, intégré à Gemini 3 Flash. Cette technologie transforme radicalement la manière dont l’IA interprète les images, passant d’une analyse statique à un processus dynamique et interactif.

L’innovation « combine le raisonnement visuel et l’exécution de code pour fonder les réponses sur des preuves visuelles » et « transforme la compréhension d’images d’un acte statique en un processus actif », selon les termes exacts de Google.

Comment fonctionne Agentic Vision ?

Le système opère selon une boucle d’intelligence en trois phases distinctes :

Un processus en trois étapes

1. **Think** : L’IA évalue d’abord la demande de l’utilisateur et l’image fournie pour établir une stratégie d’analyse structurée.

2. **Act** : Elle génère ensuite automatiquement du code Python pour manipuler l’image – que ce soit pour zoomer sur certaines zones, annoter des éléments importants ou effectuer des calculs précis.

3. **Observe** : Enfin, l’image modifiée est réintégrée dans le contexte d’analyse, permettant au modèle d’affiner sa compréhension avant de formuler une réponse définitive.

Des améliorations significatives en précision

Cette approche résout un problème fondamental des systèmes d’IA actuels qui analysent les images en un seul coup d’œil, sans possibilité d’inspection plus approfondie.

Les tests internes de Google montrent des gains de précision de 5 à 10% sur différents benchmarks visuels. Cette amélioration provient de la capacité du système à manipuler activement les images, à zoomer sur des détails spécifiques et à effectuer des calculs précis.

Trois capacités révolutionnaires

Agentic Vision débloque trois fonctionnalités essentielles qui transforment l’analyse visuelle par IA :
– L’annotation et la manipulation interactive des images
– L’analyse mathématique des éléments visuels
– La vérification des observations par preuves visuelles concrètes

Quand pourrez-vous l’utiliser ?

Les développeurs peuvent déjà accéder à cette technologie via Google AI Studio et Vertex AI en utilisant l’API Gemini. Pour expérimenter, il suffit d’activer l’option « Code Execution » dans la section Tools du playground de Google AI Studio.

Le grand public n’est pas en reste. Le déploiement a commencé dans l’application Gemini où les utilisateurs peuvent découvrir cette fonctionnalité en sélectionnant l’option « Thinking » (ou « Raisonnement » en français) depuis le menu des modèles disponibles.