Ayesha - stock.adobe.com
Les modèles Gemini 2.0 propulseront les agents IA sur Google Cloud
Si Google accuse un certain retard face à Anthropic et OpenAI, il est bien déterminé à reprendre la main avec ses modèles d’IA multimodaux, à commencer par ceux de sa collection Gemini 2.0. Ceux-là devront propulser les « fameux » agents dont tout le secteur vante les mérites, sans que l’on en voie encore véritablement la couleur.
IA générative, ton univers impitoyable. Il faut désormais exister médiatiquement face aux deux acteurs majeurs de l’écosystème : OpenAI et Anthropic. Quelques semaines après les annonces d’Anthropic consacrées à Claude 3.5 Sonnet et à Computer Use – qui rapproche la GenAI de la RPA – et en même temps que le train de douze annonces chez OpenAI, Google présente le premier LLM de sa collection Gemini 2.0.
Tous les acteurs en place ne jurent dorénavant que par l’IA agentique. Google ne déroge pas à la règle. De fait, sa filiale cloud pariait en avril dernier sur la multiplication des agents d’IA. C’est donc sans surprise que Gemini 2.0 Flash doit répondre aux besoins particuliers de cette architecture. Pour rappel, l’IA agentique consiste à confier à un grand modèle de langage des flux de travail qu’il peut orchestrer en autonomie partielle ou totale.
D’abord, établissons le portrait de ce Gemini 2.0 Flash, pour l’instant accessible dans un mode expérimental à travers Google AI Studio, l’API Gemini et Vertex AI.
Gemini 2.0, une collection de modèles véritablement multimodaux
Selon Google, il s’agit d’un véritable modèle multimodal et non pas seulement d’un VLM (modèle de langage-vision). Celui-ci accueille en entrée du texte, du code, des images, des vidéos et des fichiers audio. En retour, il peut générer du texte, du code et du son. La création d’images est accessible en anticipé, après autorisation de Google.
Comme son aîné Gemini 1.5 Flash, il est doté d’une fenêtre de contexte de 1 million de tokens. Cela représente 10 000 lignes de code, 700 000 mots en anglais, une heure de vidéo ou 11 heures d’audio. En revanche, il ne génère en retour que l’équivalent de 8 000 tokens. Sa connaissance d’Internet (Knowledge cutoff) est arrêtée en août 2024.
Les premiers parangonnages de Gemini 2.0 Flash laissent apparaître un modèle légèrement moins performant que Claude 3.5 Sonnet et GPT-4o sur les tâches de compréhension et de raisonnement sur du texte (à partir des scores MMLU-Pro et DROP, qui sont toutefois au-dessus de Llama 3.3 70B et Llama 3.1 405B), mais meilleur sur les tests de raisonnement, de programmation, de mathématiques et ceux consacrés à la gestion de tâches multimodales.
Il surpasse Gemini 1.5 Flash et Pro 002, mais la variante Pro est encore la plus indiquée pour gérer une longue fenêtre de contexte et effectuer des tâches de transcript à partir de fichier audio.
La manière la plus simple de tester les capacités de Gemini 2.0 Flash et de ses aînés est d’utiliser Google AI Studio, un outil freemium de type « playground ». Le modèle semble particulièrement rapide et explique clairement et en détail ses réponses. Ses résultats semblent indiquer que son entraînement a été optimisé avec la technique Chain of Though : le LLM détaille plusieurs étapes après une requête et fournit les explications pour les tâches à effectuer.
Il s’agit ici d’une déduction : Google Deepmind n’a pas communiqué sur la manière d’entraîner cette collection. En parallèle, quelques membres de l’équipe de recherche ont étudié la tendance qu’ont les LLM à effectuer des raisonnements multisauts de manière latente – à consolider les données de plusieurs sources différentes sans qu’on leur demande explicitement de le faire – quand ils doivent répondre à certaines requêtes.
L’on apprend aussi que pour entraîner Gemini 2.0, Google Deepmind exploite les puces TPU Trillium, en disponibilité générale depuis hier sur Google Cloud. Sundar Pichai, PDG de Google, assure même que l’équipe n’utilise pas d’autres puces.
Une boîte à outils et des démonstrateurs
IA agentique oblige, Google a donné des outils à Gemini Flash 2.0. Comme les autres modèles de sa catégorie, il peut appeler des API, dont celles de Google Maps, Lens et Search.
Ce sont en tout cas les éléments utilisés dans le cadre du projet Astra, un prototype d’assistant universel capable d’interpréter des flux vidéo et sonore en temps réel. Si l’application n’est pas encore disponible, Google AI Studio permet d’en tester les fonctionnalités principales, dont la possibilité d’interagir avec le modèle en temps réel via le microphone et la caméra de son ordinateur. Oui, ce modèle voit et entend.
Gemini 2.0 Flash peut aussi exécuter du code, par exemple pour visualiser un diagramme codé en JavaScript.
Le modèle propulse déjà le projet Mariner. Ce prototype vise à automatiser des tâches et à mettre au point un agent Web capable, par exemple, de rechercher des produits et de les acheter pour l’utilisateur. Une galerie de prompts dans Google AI Studio doit permettre d’essayer différents scénarii.
Plus utile pour les développeurs, Jules est un assistant de programmation pouvant être intégré aux flux de travail GitHub pour aider à la correction de bugs et l’accomplissement des tâches répétitives longues. Il est aujourd’hui à l’essai auprès d’un petit groupe de testeurs. Google prévoit d’élargir ce panel aux développeurs intéressés au début de l’année 2025.
Enfin, au grand désespoir des développeurs de jeu vidéo, Google prépare Genie 2. C’est un modèle d’IA pouvant « créer une variété infinie de mondes 3D jouables, à partir d’une seule image ». L’éditeur de jeux vidéo Electronic Arts a déjà présenté un outil similaire. Mitchell Kowoski, PDG d’EA, croit que 60 % des processus de développement de jeux vidéo « seront impactés par l’IA générative ». Selon une enquête de Wired, l’IA générative est déjà en train de remplacer les développeurs dans ce secteur du divertissement.
Google collabore également avec Supercell, l’éditeur du jeu mobile Clash of Clans (propriété du Chinois Tencent) pour apprendre à un LLM à participer au game design d’un jeu vidéo. Pour l’instant, Google s’est limité à la démonstration d’un agent capable d’assister le joueur dans ses choix de stratégie et de s’orienter dans les menus à partir du partage d’écran et de ses indications à la voix.
Comme OpenAI et Anthropic, le fournisseur mise sur l’effet « wahou », mais n’a pas véritablement présenté d’agents capables d’automatiser un processus métier partiellement ou de bout en bout. Depuis avril 2024, Google Cloud tient une liste de cas d’usage décrits succinctement : peu d’entre eux semblent impliquer des LLM capables d’orchestrer des actions. De fait, AWS, Microsoft, Salesforce et bien d’autres s’outillent pour développer des agents, voire des architectures multiagents, mais les clients ont principalement déployé des architectures RAG (Retrieval Augmented Generation), plus aisément maîtrisables.
Surtout, il faudra attendre la première moitié de l’année 2025 pour voir émerger l’ensemble de la collection Gemini 2.0. Ces LLM seront d’abord infusés dans le catalogue de produits Google et Google Cloud.
Qu’importe, le fournisseur cloud assure que les modèles Gemini sont utilisés par « des millions de développeurs ».