alphaspirit - Fotolia
Google I/O 2024 : une esquisse de feuille de route GenAI pour les développeurs
Lors de Google I/O, l’entreprise a encore une fois misé sur l’IA générative en présentant des annonces pour tous les utilisateurs de ses services. Toutefois, le nombre de produits en disponibilité générale se compte sur les doigts d’une seule main.
La conférence développeur a encore tourné au spectacle avec un grand S. L’objectif ? Redorer l’image Google face à OpenAI et sa stratégie de communication du « coup d’avance ».
Le grand public retiendra de Google, AI Overviews, c’est-à-dire l’intégration des modèles Gemini dans Google Search. Cette fonction produit des résumés par-dessus les résultats de recherche traditionnelle, à l’instar de ce que Microsoft a fait en combinant Bing et Copilot. La fonction sera accessible cette semaine aux États-Unis et dans le monde entier d’ici à la fin de l’année, selon Google. Dans Google Photos, les utilisateurs pourront, dès cet été, rechercher des photos en posant des questions détaillées.
DeepMind, la star de Google I/O 2024
En outre, les équipes de Google DeepMind ont présenté le projet Astra, un futur agent doté de capacités multimodales, déployé sur un smartphone et susceptible d’interpréter la voix, des images et des instructions visuelles, comme des flèches. Dans une démonstration, l’application motorisée par un modèle Gemini est apte à reconnaître des objets (et décrire à voix haute leur fonction), mais aussi du code, et à localiser des lieux et des objets.
VideoFX de Google, un outil expérimental basé sur Veo, un modèle de génération de vidéo de Google DeepMind, s’adresse aux vidéastes souhaitant produire des séquences vidéo à l’aide de prompts, à l’instar de Sora d’OpenAI. Et à Google de représenter Imagen 3, un autre modèle text to image cette fois-ci, concurrent à Midjourney, qui sera disponible dès cet été.
Très grande fenêtre de contexte : Google persiste et signe
Quid des développeurs et des entreprises ? Si l’on se réfère à la chronologie du keynote disponible sur YouTube, Google n’a consacré que huit petites minutes sur près de deux heures de conférence aux produits consacrés aux développeurs et seulement douze minutes à Android. Les fonctionnalités ne manquent pourtant pas.
Il a annoncé la disponibilité générale en juin de Gemini 1.5 Pro, un grand modèle de langage doté d’une fenêtre de contexte d’un million de tokens. Le LLM motorisera également Gemini Advanced (150 pays et territoires, 35 langues), l’offre concurrente à ChatGPT Pro d’OpenAI et son GPT-4o. Les applications sont toutes deux connectées à des outils de recherche Web.
Simultanément, Gemini 1.5 Flash, un modèle plus petit et au temps de réponse plus rapide sera accessible pour les développeurs. Pour l’heure, les modèles de la collection Gemini 1.5 sont en préversion publique « dans 200 pays et territoires », dont l’Europe, le Royaume-Uni et la Suisse.
Toujours dans l’idée d’agrandir la fenêtre de contexte, Google met également à disposition une liste d’attente pour s’inscrire aux préversions privées de variantes de Gemini 1.5 Flash et Pro capables d’ingérer deux millions de tokens. Si Google a déjà prouvé qu’il peut atteindre une fenêtre de contexte de dix millions de tokens, le modèle en question n’est pas encore stable. De fait, les projets de recherche tendent à démontrer que deux millions de tokens sont une nouvelle limite. Pour rappel, certains considèrent cette capacité comme un argument marketing.
Small Language Models et « open weight » : Google suit la piste de Microsoft et de Meta
Outre les modèles Gemini, le petit géant du cloud fait grandir ses collections Gemma qui rassemblent des modèles « open weight ». Après Gemma 7B (sept milliards de paramètres), il avait présenté CodeGemma et ses trois variantes : deux LLM préentraînés de 2,7 et 7 milliards de paramètres, ainsi qu’une version « Instruct » de 7 milliards de paramètres.
Il y a aussi RecurrentGemma, un autre modèle ouvert de 2,7 milliards de paramètres qui « combine des récurrences linaires contrôlées et une fenêtre d’attention glissante ». Il est inspiré de l’architecture hybride Griffin, proche des efforts de l’équipe derrière Mamba qui ont donné naissance à Snowflake Arctic. Ici, il s’agit de contrer Microsoft qui a trouvé le moyen de développer de petits modèles très performants.
Lors de Google I/O, DeepMind a présenté PaliGemma, un modèle multimodal de 3 milliards de paramètres capable de traiter des images, inspiré par le projet Pali-3 décrit, comme un VLM (Vision Language Model). Après une phase de fine-tuning, PaliGemma serait adapté à la génération de légendes à partir d’une image, le sous-titrage de courtes vidéos, la réponse à des questions visuelles, l’extraction d’entités nommées dans une image, la détection et la segmentation d’objet.
Enfin, Google s’est permis d’effeuiller l’arrivée dans quelques semaines de Gemma 2, toujours en cours de réentraînement. Les premiers benchmarks réalisés par Google tendent à démontrer que ce LLM de 27 milliards de paramètres frôle les performances Llama 3-70B et dépasse de peu celle de Grok-1 sur les bancs d’essai MMLU, HellaSwag et GSM8K. Celui-ci s’exécuterait sur un seul TPUv5e à l’inférence.
Outillage : le RAG ne suffit plus
Les modèles open weight sont voués à être fine-tunés par les entreprises et par la communauté open source. En ce sens, Google rappelle l’existence de Keras permettant d’exécuter des tâches d’affinage par-dessus TensorFlow, PyTorch ou Jax, en conjonction avec les librairies d’accélération des entraînements tels qu’OpenXLA et RAPIDS cuDF.
Concernant l’outillage de mise en production et pour s’aligner avec Mistral AI et OpenAI, Google a annoncé la prise en charge des fonctions parallèles par l’API Gemini, mais aussi l’extraction d’images à partir de vidéos dans Vertex AI. De même, une API Batch accepte, à l’instar des interfaces de programmation d’OpenAI, l’ingestion « de prompts non sensibles » en grande quantité pour des cas d’usage de classification, d’analyse de sentiments, d’extraction de données ou de générations, de descriptions. Ces traitements en batch réduiraient les coûts, avance le fournisseur. Une assertion qui reste à vérifier.
Le mois prochain, la préversion publique d’une fonction de mise en cache du contexte devrait simplifier les architectures d’IA générative. Actuellement, les clients de GCP déploient des couches de cache supplémentaires, afin de conserver les prompts et les éléments de contexte les plus utilisés, ce qui permet d’effectuer des sélections et d’ingérer plusieurs fois des dizaines, voire des centaines de pages de contexte. « Cette fonction est idéale pour des scénarios tels que le brainstorming sur la base de votre travail existant, l’analyse de documents complexes ou la fourniture de résumés d’articles de recherche et de matériel de formation », assure Google.
D’ici à la fin du mois, une solution de « génération contrôlée » sera accessible en préversion publique. Il ne s’agit pas de bloquer les réponses insidieuses ou toxiques, mais d’instruire le modèle dans le respect de formats préfinis. Les développeurs pourront alors maîtriser la manière dont des fichiers YAML, JSON, XML et d’autres seront engendrés. Pour l’instant, seul le template JSON est accessible.
GCP a tout de même annoncé la disponibilité générale de Grounding with Google Search, c’est-à-dire la possibilité pour les entreprises d’ancrer les résultats de leurs modèles avec le moteur de recherche Google, en complément des informations internes trouvées avec leur architecture RAG.
Dans la lignée des présentations effectuées lors de Next’24 autour de la conception d’agents motorisés par des LLM, GCP a dévoilé la prise en charge, en préversion, des outils FireBase GenKit et de LLamaIndex dans VertexAI Agent Builder, en sus de LangChain.
FireBase GenKit est un framework open source de conception d’applications JavaScript/TypeScript, qui permet, entre autres, d’exploiter plusieurs LLM depuis une seule interface et de connecter les modèles à des outils, tandis que LlamaIndex est utilisé pour concevoir des architectures RAG.
Vers des déploiements mobiles, locaux et contraints
Outre le déploiement de modèles dans des applications cloud native, Google entend rendre possible l’exécution de LLM localement avec Google AI Edge. Dans le langage du fournisseur, cela veut dire qu’il souhaite déployer de petits modèles, de type Gemini Nano dans des applications Web, mobiles ou embarquées. AI Edge rassemble plusieurs outils, dont TensorFlow Lite, une variante du fameux framework de deep learning conçu pour les environnements contraints et MediaPipe, une suite de librairies pour entraîner des pondérations LoRa et inférer des LLM sur un smartphone.
Clairement, Google ne change pas de trajectoire par rapport à I/O 2023 et tente d’élever son jeu face à OpenAI, Microsoft, Mistral AI, AWS et les autres. Or, il est bon de signaler que la très grande majorité des annonces d’hier sont en préversion publiques ou privées, voire indisponibles. Le fournisseur devra donc prouver qu’il peut aller aussi vite que ses concurrents dans l’exécution de sa feuille de route.