IA générative : avec Gemini, Google veut damer le pion à OpenAI
Pendant que Meta annonce une alliance avec IBM et présente plusieurs fonctionnalités, Gemini (le grand modèle de langage promis par Google) pointe le bout de son nez pour rivaliser avec GPT-4. Les chercheurs du géant du cloud sont toujours aussi peu prolixes quant aux détails importants de leurs travaux.
La version 1.0 de Gemini, cette collection de modèles multimodale, est capable de comprendre du texte, du code, des images, des fichiers audio et vidéo et de générer du texte, du code et des images.
La collection annoncée hier se compose de trois types de variantes : Gemini Ultra, Pro et Nano. Gemini Ultra serait le plus gros LLM (Large Language Model) de Google à ce jour conçu pour effectuer des tâches complexes, tandis que sa déclinaison Pro doit proposer un bon niveau de performance à un coût d’inférence plus faible dans de nombreux domaines. Nano est la gamme de modèles la plus efficiente, pouvant s’exécuter sur des smartphones.
Seuls les modèles Pro et Nano 1 et 2 sont disponibles. Les phases d’apprentissage par renforcement avec retours d’informations humains et de red teaming, réservées à Gemini Ultra, ne sont pas terminées, précise Google.
Gemini 1.0 intègre déjà les produits Google et Google Cloud
« Dans le cadre de ce processus, nous mettrons Gemini Ultra à la disposition de certains clients, développeurs, partenaires et experts en matière de sécurité et de responsabilité pour des essais préliminaires et un retour d’information, avant de le déployer auprès des développeurs et des entreprises clientes au début de l’année prochaine », indique l’entreprise.
Pro, Nano 1 et Nano 2 sont en cours de déploiement dans les produits de Google dans 170 pays, en anglais dans un premier temps. Son assistant Bard, utilise une version « fine-tunée » de Gemini Pro quand il est interrogé dans la langue de Shakespeare. L’année prochaine, le Pixel 8 Pro aura le droit à l’intégration de modèles Nano dans une application d’enregistrement pour propulser une fonction de résumé et de réponse « intelligente » dans WhatsApp.
« Dans les mois à venir, Gemini sera disponible dans un plus grand nombre de nos produits et services, tels que Search, Ads, Chrome et Duet AI », renseigne le géant du Cloud.
Dès le 13 décembre prochain, les entreprises pourront tester Gemini Pro à travers l’API disponible dans Google AI Studio et Vertex AI.
Comme au lancement de PalM-2, Google se réserve bien de détailler toutes les spécifications techniques de ces LLM. Nano-1 et Nano-2 ont tout de même le droit à un traitement de faveur. Le géant du cloud est fier d’avoir réussi à produire deux modèles suffisamment petits pour s’exécuter sur des smartphones. Nano-1 est doté de 1,8 milliard de paramètres, tandis que Nano-2 dispose de 3,25 milliards de paramètres. Les modèles Nano ont été distillés à partir de la variante Ultra, puis quantisés (compressés) sur 4 bits.
Un entraînement multicentre de données
À l’inverse, Gemini Ultra est si gros qu’il a nécessité plusieurs « SuperPods » de TPUv4 (un SuperPod de TPUv4 contient 4 096 puces interconnectées à un switch optique dédié) et TPUv5e, répartis à travers plusieurs data centers à l’aide d’un réseau intra et intercluster. « Les temps de latence et les largeurs de bande passante réseau de Google sont suffisants pour prendre en charge le paradigme de formation synchrone couramment utilisé, qui exploite le parallélisme des modèles et des données au sein des SuperPods », assurent les chercheurs de Google.
Or, plus d’équipements impliquent davantage de défaillances matérielles et logicielles. Un problème rare, la corruption de données silencieuse, devient récurrent. Ce phénomène se produit quand un CPU affecté par des fluctuations électriques génère des erreurs de calcul.
Le failover après panne hardware devient clé. Pour ce faire, Google a mis en place des systèmes de rejeu « déterministes » afin d’isoler les erreurs de calcul, et des scanners pour détecter la corruption de données silencieuse.
Selon les chercheurs de Google, les capacités mobilisées sont « significativement plus importantes » que celles exploitées pour entraîner PaLM-2. L’architecture logicielle ne change pas. Google a mis à contribution son système Pathway et son framework JAX.
Google s’appuie sans surprise sur un réseau de neurones Transformer modifié avec un système d’attention multirequête (MQA, contrairement à Meta AI qui préfère la technique GQA). Les modèles ont été entraînés avec 32 000 tokens et sont dotés d’une fenêtre de contexte de même longueur (contre 200 000 pour Claude 2.1 et 128 000 tokens pour GPT-4-Turbo).
« Au cours de l’entraînement de Gemini Ultra, nous avons obtenu un goodput de 97 % (goodput : le temps passé à calculer de nouvelles étapes utiles par rapport au temps écoulé de la formation) », indique Jeffrey Dean, directeur scientifique chez Google DeepMind et Google Research, sur X (Twitter). Ce score atteignait 85 % lors de la formation de PaLM et PaLM 2. Clairement, GCP se passe bien de Nvidia.
Plus de données, oui, mais lesquelles ?
Il n’y a pas non plus de détails concernant la taille du jeu de données. Google évoque seulement la méthode pour identifier la quantité de données nécessaire à l’entraînement. Les chercheurs se sont appuyés sur le constat effectué par DeepMind, au moment d’entraîner le modèle Chinchilla : « pour chaque doublement de la taille du modèle, le nombre de tokens d’apprentissage doit également être doublé ». Ce ratio n’est pas respecté pour les petits modèles distillés : la quantité de données est plus élevée que le nombre de paramètres.
La grosse différence tient dans le fait que le jeu de données de préentraînement ne contient plus seulement des textes, des exemples de code, des documents, des livres, mais aussi des images, des fichiers audio et des données vidéo.
Ces données ont été divisées en tokens (des séquences de caractères Unicode) à l’aide du tokeniser SentencePiece. Celui-ci a été entraîné sur un « gros échantillon de l’ensemble du jeu de préentrainement », ce qui permettrait d’obtenir un vocabulaire plus riche, en sortie des modèles.
Ces données ont été filtrées à l’aide de règles heuristiques, des algorithmes de classification et d’autres techniques afin d’obtenir des données de qualités et « sûres ». Pour les modèles plus petits, ce jeu de données a été revu à la baisse et les chercheurs ont réglé le mix et le poids des données en privilégiant « certains domaines de connaissance ».
Comme au moment de présenter PaLM et PaLM 2, les chercheurs insistent sur la nécessaire mise en qualité des données, un défi en cours pour l’ensemble de la communauté de l’IA.
Une profusion de benchmarks pour prouver la supériorité de Gemini sur GPT-4
Voilà pour les explications techniques très épurées. « Google a publié Gemini avec un rapport de 60 pages dans lequel il affirme à plusieurs reprises que les données d’entraînement sont essentielles (“Nous constatons que la qualité des données est essentielle pour obtenir un modèle très performant”), tout en ne fournissant pratiquement aucune information sur la manière dont elles ont été produites et filtrées, ou sur leur contenu », lance Jesse Dodge, chercheur NLP à l’institut Allen, sur X.
Jeffrey DeanDirecteur scientifique, Google DeepMind et Google Research
« Cela suit la tendance des livres blancs qui sont écrits pour être lus comme des documents de recherche qui ne contiennent pas réellement les informations nécessaires à la science fondamentale. Il s’agit d’un produit, et ils occultent délibérément les informations les plus importantes qui permettent aux modèles de fonctionner », affirme-t-il.
« Des modèles et des fiches techniques seront publiés dans les semaines à venir, au fur et à mesure de la disponibilité générale du modèle Ultra », répond Jeffrey Dean.
En revanche, Google détaille longuement les benchmarks pour les modèles Ultra, Pro et Nano. Dans 30 des 32 benchmarks, la première version de Gemini Ultra surpasse les LLM les plus performants du marché, selon Google Research et DeepMind. Cette liste inclut GPT-4 (et non GPT-4-Turbo), GPT-3.5, Claude 2, Inflection-2, Grok 1 et LLama 2.
Google a vanté des performances nettement supérieures à celles des modèles précédents en matière de calculs mathématiques, un domaine dans lequel les LLM sont peu performants. Gemini Ultra a obtenu un score de 90 %, surpassant les humains, lors du test de compréhension linguistique multitâche de l’université de Cornell.
Production de traductions, de résumés, d’images, compréhension de texte, d’images, de diagrammes, d’infographies, de code, de vidéo, de fichiers audio, raisonnement géospatial… Gemini Ultra serait au-dessus de la mêlée, tandis que Gemini Pro surpasserait GPT 3.5 dans la plupart des tests.
Le géant du cloud a beau aligner les démonstrations marquantes, les utilisateurs, notamment les entreprises, devront vérifier ses dires dans le cadre de leurs projets d’IA générative. Certains internautes se sont d’ailleurs montrés plus enthousiastes quant au rapport performance-taille des modèles Nano.