PaLM 2 confirme un tournant dans la stratégie IA de Google
Un peu plus d’un an après avoir présenté son modèle PaLM, Google revoit son modèle de fondation et infuse PaLM 2 dans 25 de ses produits. Surtout, le géant de l’IA confirme les remarques de ses pairs, mais – pour mieux concurrencer OpenAI – protège désormais quelques informations clés.
Lors de sa conférence Google I/O, le géant du cloud a consacré 1 h 30 de sa keynote à l’intelligence artificielle générative. Au cœur des annonces, dont la disponibilité du concurrent de ChatGPT, Bard, dans 180 pays et dans trois langues (anglais, coréen et japonais), de l’assistant Help Me Write dans Google Workspace, de la préversion de l’offre Duet AI for Google Cloud se trouve PaLM 2. Le grand modèle de langage (LLM) nouvelle génération de Google enrichit – ou enrichira - 25 produits grand public et professionnels, y compris Google Search. La stratégie est claire : il s’agit de déployer un modèle de fondation – au sens strict du terme – pour motoriser des fonctions infusées dans l’ensemble des produits du groupe, logiciels, cloud ou matériels. Lors de la conférence, un ensemble de cas d’usage simples à comprendre, mais visuellement très parlant ont été présentés au public.
Pour rappel, Google avait présenté en avril 2022, PaLM (Pathways Language Model). Cette collection rassemble des modèles dotés de 8 à 540 milliards de paramètres. Ces modèles s’appuient sur un Transformer « decoder only » aux capacités autorégressives et ont été entraînés sur 780 milliards de tokens (un token équivaut à une série de trois ou quatre signes ou caractères). Les chercheurs avaient utilisé 6 144 TPU v4, des puces maisons de Google, consacrées aux charges de travail de machine learning. Pour ce faire, ils ont mis au point Pathways, un système distribué de flux de données fragmentés et asynchrones. Il permet de centraliser la gestion des ressources de calcul tout en distribuant de manière efficiente les calculs des programmes JAX (un framework consacré au calcul scientifique et au machine learning) sur des ilots d’accélérateurs intercommunicants (grâce à la norme RoCe), ici des pods TPUv4.
Une approche multimodale
Selon Google, PaLM 540B, la version dotée de 540 milliards de paramètres, avait démontré des compétences supérieures à ses concurrents du moment, dont GPT-3 (OpenAI), Megatron Turing-NLG (Nvidia), Chinchilla, ou LaMDA (Google) dans 28 des 29 benchmarks NLP testés. Ceux-là indiquaient que PaLM s’avérait très performant dans l’accomplissement de tâches de compréhension, d’explication ou de génération de texte ou du code.
Dans l’urgence crée par le succès fulgurant par ChatGPT d’OpenAI, le géant du cloud a lancé son concurrent Bard, en s’appuyant non pas sur PaLM, mais sur LaMDA, a priori meilleur dans les tâches conversationnelles. Or, les premiers essais de l’application ont démontré que le modèle sous-jacent était prompt aux hallucinations.
En parallèle, la popularité de l’agent conversationnel d’OpenAI a provoqué une émulsion dans la communauté des chercheurs et des développeurs. Depuis décembre 2022, il n’est pas une semaine où un article de recherche nourrissent la réflexion sur la conception de ces modèles d’intelligence artificielle.
Depuis, PaLM a connu deux déclinaisons spécifiques à des domaines : Med PaLM et Sec PaLM. Ceux-là ont été entraînés sur des jeux de données spécialisés, en collaboration avec des experts de la santé et de la cybersécurité. Med PaLM 2 est déjà disponible en préversion, et LeMagIT imagine que Google fera de même pour la sécurité. De son côté, Bard, jusqu’alors motorisé par LaMDA, « est bien passé à PaLM 2 pour une efficience maximale », confirme un porte-parole de Google auprès du MagIT.
Le rapport technique long de 91 pages consacré à PaLM 2 indique que les modèles de cette collection surpassent son prédécesseur dans tous les domaines testés, et ce haut la main. « Nos résultats d'évaluation montrent que les modèles PaLM 2 sont nettement plus performants que les modèles PaLM dans une variété de tâches, y compris la génération de langage naturel, la traduction et le raisonnement », résument les chercheurs. PaLM 2 est même plus performant que GPT-4 dans certains benchmarks, mais Google ne s’est pas donné la peine d’afficher des comparaisons pour l’ensemble des parangonnages listés dans le rapport.
Soit. Mais comment ?
Ledit document présente dans les grandes lignes les efforts pour améliorer PaLM. Cette deuxième mouture vient optimiser la mise à l’échelle du modèle, est entraîné sur des jeux de données plus variés et profite des avancées du framework UL2, visant à donner au modèle plusieurs objectifs lors de la phase de préentraînement afin d’accomplir davantage de tâches et de méthodes d’apprentissage NLP/NLG et non plus exceller dans une seule d’entre elles.
Des modèles plus petits…
Ainsi, Google confirme les observations de Meta, de Chinchilla, de LightOn et de Databricks : « la taille et la qualité des jeux de données est aussi important que la taille du modèle ».
Autrefois, selon les principes des « scaling laws » (ou lois de mise à l’échelle spécifique à l’entraînement de réseaux de neurones) les chercheurs estimaient qu’il fallait habituellement faire grossir le nombre de paramètres du modèle « trois plus vite que le volume de données d’entraînement ».
Aujourd’hui, ils constatent que, plus la puissance de calcul comptabilisé en FLOPS (nombre d’opérations en virgule flottante) est importante, plus le nombre de paramètres et le volume de données doivent croitre dans des proportions égales. Google calcule le ratio optimal entre ces trois critères (puissance de calcul, taille du modèle, volume de données) en tentant de minimiser les pertes d’entraînement (une mesure qui indique à quel point les prédictions en sortie d’un modèle sont éloignées des valeurs en entrée). Dans le cadre du développement de PaLM 2, les chercheurs ont effectué des tests sur plusieurs modèles proxys dotés de 15 milliards jusqu’à 400 milliards de paramètres sur le même jeu de données.
Toutefois, s’appuyer sur la minimisation des pertes d’entraînement ne suffit pas à produire le meilleur modèle, préviennent les chercheurs. Pour généraliser l’observation, ils ont effectué des tests similaires avec quatre modèles plus petits (3,31B, 6,08B, 8,95B et 14,7B, B pour milliards de paramètres) exposés à 27 benchmarks NLP avec la même puissance de calcul (10^22 FLOPs, sic). « Par exemple, le modèle de 8,95B, qui présente la perte la plus faible et qui est le plus proche du modèle optimal, est légèrement moins performant que le modèle 14,7B pour les tâches en aval », illustrent les chercheurs.
En résumé, un modèle LLM peut être sur le papier parfaitement équilibré, mais ne pas fournir les résultats attendus dans l’exécution de certaines tâches. Il faut aussi prendre en compte que la puissance de calcul à l’inférence et la latence affectent la taille optimale du modèle.
Cela dit, Google se réserve bien d’informer la taille exacte de PaLM 2, son architecture et la puissance de calcul nécessaire à sa formation. En cela, le géant technologique s’aligne sur la position d’OpenAI qui a décidé ne plus transmettre ce type d’informations pour des raisons commerciales. Lors de la keynote, Sundar Pichai, CEO de Google, a évoqué le fait que le LLM sera décliné en quatre tailles différentes désignées par des noms de code. Gecko est le plus petit modèle de la collection, il peut s’exécuter sur un smartphone, insiste le CEO. Otter, Bison et Unicorn sont les modèles suivants.
Via la plateforme Vertex AI, les développeurs peuvent accéder de manière anticipée à Gecko et Bison.
De leur côté, les chercheurs évoquent trois modèles : PaLM 2-S, M et L. Ils donnent des indices sur leurs tailles.
PaLM 2-L « est significativement plus petit que le plus grand modèle PaLM, mais utilise plus de puissance de calcul à l'entraînement ». En revanche, les modèles sont moins gourmands à l’inférence, puisqu’il n’est plus nécessaire de charger un très grand nombre de paramètres en mémoire.
Cette nécessité d’utiliser davantage de puissance de calcul à l’entraînement, Google la justifie en partie par la nécessité de faire grossir le jeu de données d’entraînement composé de documents en provenance de diverses sources ; web, livres, code, formules mathématiques et conversations en ligne.
Car ce ratio 1 : 1, les chercheurs ne semblent pas le respecter totalement. « Nous constatons qu’il est généralement plus efficace d’entraîner un modèle plus petit avec plus de tokens pour un budget d’entraînement et d’inférence fixe », conclut les auteurs du rapport technique.
PaLM 2 disposerait donc bien moins de paramètres que son ancêtre, possiblement moins que GPT-3. Cela paraît confirmer le contenu du supposé document interne diffusé par SemiAnalysis. Peu importe, s’il est bien attribuable aux chercheurs de Google, le groupe fait sien une partie des arguments défendus dans cette note. C’est presque un contrepied pour la firme de Mountain View à l’origine de modèles dotés de plus d’un billion de paramètres.
Si OpenAI n’a pas révélé la taille de GPT-4, il est fort possible que le spécialiste soutenu par Microsoft ait pris le même chemin.
…Mais plus de données de meilleure qualité
En outre, PaLM 2 a été entraîné sur des données dans un plus grand nombre de langues, quand le corpus de PaLM était composé de 78 % de documents en langue anglaise. La deuxième mouture a été entraînée sur des sources dans plus de 100 langues différentes, mais Google n’en référence que 51 (anglais compris) dans son rapport technique.
Les chercheurs assurent également avoir renforcé le travail de sélection des données, ce qui justifie des gains de performances, même en anglais. « Nous avons employé plusieurs techniques de nettoyage et de mise en qualité des données, dont la déduplication, le filtrage et la suppression des informations personnelles », écrivent-ils. Un large effort a été mené pour évaluer la toxicité (biais de genre, de race, de religion, etc.) de PaLM 2 et tenter de la réduire, un exercice qu’il faudra éprouver dans des conditions réelles d’utilisation. Comme GPT-4, le jeu d’entraînement de PaLM 2 s’arrête avant la fin de l’année 2021.
En attendant Gemini
PaLM 2 pourrait rapidement se voir détrôner par un autre LLM en cours d’entraînement : Gemini. « Gemini a été conçu pour être multimodale par défaut, très efficient, aisément intégrable et capable de mémorisation et de planification », avance Sundar Pichai. « Même si son développement en est à ses débuts, nous observons déjà des performances impressionnantes et uniques dans ces domaines ». Google s’est toutefois bien gardé de donner une date de disponibilité. Il faut dire que la firme de Mountain View a récemment rapproché ses deux divisions consacrées à l’IA, the Brain Team et DeepMind. Un rapprochement à peine achevé.