À la recherche de l’IA générative économique, ouverte, et peu gourmande
Les modèles d’IA capables de générer du texte et des images monopolisent l’actualité. Quelques acteurs – OpenAI et Microsoft, Google, Meta – s’engagent dans un affrontement technico-marketing pour tenter in fine de s’emparer d’un marché très prometteur. Databricks et Genesys font partie de ceux qui pensent qu’il y a aussi une place pour des modèles open source à moindre coût.
L’émergence des grands modèles de langage émane des investissements de ces mêmes entreprises dans la recherche ouverte et les projets open source.
Or, l’on assiste à un pivot. Puisque ces technologies représentent désormais un intérêt commercial, certains décident de fermer les rideaux sur leurs avancées techniques.
OpenAI, malgré son nom, ne souhaite plus partager ses méthodes de conception et d’entraînement dans le détail. LightOn, une startup française qui pose sa plateforme en alternative à GPT-4 et ChatGPT a pris la même décision qu’OpenAI : ses modèles sont propriétaires.
Il faut également prendre en compte une barrière technico-financière. Pour rappel, GPT-3 a été entraîné sur un superordinateur comptant 10 000 GPU, à 10 000 dollars l’unité. Le modèle LLaMa de Meta a été propulsé par 2 048 GPU. De son côté, BLOOM, un projet porté par HuggingFace, a été formé sur un cluster de 384 GPU du supercalculateur Jean Zay. Un entraînement qui, s’il avait été facturé par le GENCI (la branche HPC du CNRS), aurait coûté entre 2 et 5 millions de dollars.
Pourtant, les responsables de ces projets LLM n’ont de cesse de chercher à réduire les coûts d’entraînement de ces grands modèles de langage.
Outre des librairies d’optimisation, l’architecture même des modèles évolue peu. Tous les LLM s’appuient sur un article scientifique de 2017 marquant l’émergence des transformeurs. L’intérêt de ces modèles d’apprentissage profond autoattentifs tient dans la parallélisation des traitements de données séquentielle, chose impossible avec les réseaux de neurones récurrents.
LLM : des architectures qui évoluent peu, contrairement aux techniques d’entraînement
Depuis 2017, les performances des modèles de langage ont toutefois grandement évolué à force d’expérimentations. Si le nombre de paramètres a été un vecteur de réussite important, comme l’a constaté Google et OpenAI avec BERT, PalM et GPT-2 et 3, la taille des jeux de données est aussi un critère clé pour les porteurs de Chinchilla, LAMDA, LLaMa et de Paradigm.
Cette volumétrie se mesure en nombre de tokens. Un token correspond à une série de trois à quatre caractères, le plus souvent un mot. Pour rappel, le rôle premier des grands modèles de langage est de prédire le mot suivant dans une phrase avec le plus de précision possible.
« Cette architecture [transformeur] produit un modèle qui peut être entraîné à lire de nombreux mots (une phrase ou un paragraphe, par exemple), à prêter attention à la manière dont ces mots sont liés les uns aux autres, puis à prédire les mots qu’il pense être les suivants », précisent les chercheurs de Google.
Pour entraîner LLaMa, Meta a utilisé 1,4 billion de tokens, contre 1,3 billion pour Paradigm.
La suite de modèles LaMDA de Google (jusqu’à 137 milliards de paramètres) a été entraînée sur 1,56 billion de tokens. L’agent conversationnel Bard, disponible de manière limitée depuis la semaine dernière, est une déclinaison allégée de LaMDA.
Une autre hypothèse est en train de se vérifier. Pour certaines déclinaisons de ces modèles de langage, ce n’est ni le nombre de paramètres, ni la volumétrie de données d’entraînement, mais la forme et la qualité du jeu de données qui priment.
LLaMa, LaMDA, GPT-3.5 et 4, Chinchilla ou Paradigm sont des modèles NLG entraînés pour suivre des instructions données en langage naturel (Instruction Following model, en VO). C’est ce que rappelle Matei Zaharia, cofondateur et CTO de Databricks et professeur associé en science computationnelle à l’université de Stanford. Bard et ChatGPT sont deux applications propulsées par ce type de modèle.
Dolly, un clone de clone
Justement, Databricks a présenté vendredi dernier Dolly, un petit modèle open source de 6 milliards de paramètres capable de suivre des instructions en langage naturel. Un ordinateur portable un peu costaud, une VM Cloud ou une station de travail avec un seul GPU suffirait à l’exécuter.
Le projet Dolly a été conçu à partir GPT J-6B, un modèle open source concocté par l’institut de recherche EuleutherAI. Inspiré de GPT-2 et 3, le transformeur GPT J-6B a été entraîné sur 402 milliards de tokens (un jeu de données nommé The Pile, pesant 825 Go) en 383 500 étapes sur un pod TPUv3- 256 de Google Cloud.
« Quand il a été présenté en 2021, tout le monde pensait que GPT-J était bien moins bon que GPT-2 et 3 », indique Matei Zaharia.
Il y a toutefois une surprise. En supervisant son entraînement avec un jeu de 52 000 questions – réponses tirées du projet Alpaca de l’Université de Stanford, le modèle Dolly obtient des résultats satisfaisants en très peu de temps. « Nous avons supervisé GPT J-6B avec des exemples de questions-réponses et de conversations en ligne pendant un peu plus de 40 heures. Cela nous a coûté environ 30 dollars dans le cloud », s’amuse le CTO.
Matei ZahariaCTO et cofondateur, Databricks
Alpaca est une version affinée (fine tuned, en VO) d’une variante de LLaMa dotée de 7 milliards de paramètres. Pour le superviser, les chercheurs de Stanford se sont inspirés du projet self-instruct, un framework pour générer des jeux de données synthétiques. Ces 52 000 questions-réponses ont été générées à l’aide de text-davinci-003, une des déclinaisons de GPT-3.5 d’OpenAI.
Tout comme son inspiration, Alpaca, Dolly de Databricks s’avère « surprenamment bon » pour générer du texte, aider à des séances de brainstorming et répondre à des questions ouvertes en anglais. « Il présente toutes les limites des modèles de langage. S’il ne sait pas quelque chose, il peut l’inventer, il n’est pas connecté à une forme de connaissance externe », prévient Matei Zaharia. « Mais il était beaucoup plus efficace et plus simple à concevoir que nous le pensions ».
Vers l’IA générative embarquée
Si le projet Dolly est open source (GPT J-6B est sous licence Apache 2.0 et le jeu de données d’Alpaca sous Creative Commons NC 4.0), Databricks en a fait un notebook à déployer depuis sa plateforme. De plus, l’entreprise ne confie les poids des modèles qu’à la demande des utilisateurs.
Databricks n’est pas le seul à manipuler GPT J-6B. Graphcore propose un ensemble de tutoriels pour entraîner des modèles NLG s’appuyant sur le projet d’EuletherAI depuis sa plateforme logicielle et ses IPU. D’autres projets ont émergé pour concevoir une interface par-dessus le transformeur. Par exemple, ChatGPT-j tente d’imiter la célèbre application d’OpenAI. Depuis deux ans, les projets pullulent sur le Web.
Ces modèles peuvent s’exécuter sur de petites machines, voire sur du hardware embarqué. Un dérivé de LLaMA 7B est déjà décliné dans une version exécutable sur un Raspberry Pi, au prix de performances dégradées.
Les chercheurs et les étudiants peuvent donc plus facilement créer leurs logiciels inspirés de ChatGPT, mais est-ce que cela a un intérêt pour les entreprises ? Matei Zaharia le pense.
« Notre objectif est d’aider les entreprises à bâtir leurs propres solutions d’IA et de traitements de données. Il est désormais possible de concevoir des applications avec ces modèles qui semblaient accessibles qu’à un petit nombre de grands groupes », insiste-t-il.
Des technologies à la portée des chercheurs et des entreprises
Le CTO de Databricks explique que concevoir un agent conversationnel ou un classificateur de documents sur les données internes d’une entreprise est plus simple que de bâtir un modèle à l’échelle du Web. « Il y a bien moins de concepts à apprendre. Par exemple, une telle application n’a pas besoin de savoir l’Histoire de l’humanité ou comment se produit une fusion nucléaire si ce n’est pas votre métier », illustre-t-il.
« Les données sont également plus propres : normalement, il n’est pas question de théories du complot, il y a moins de données biaisées ou offensantes. Donc, les entreprises peuvent concevoir des outils efficaces avec leurs informations », poursuit-il.
Ce serait par ailleurs intéressant pour des organisations qui ne peuvent pas se permettre de connecter leurs systèmes au Web.
Toutes les sociétés ne seraient pas prêtes à miser sur quelques acteurs, selon Databricks.
« Pour de nombreuses entreprises, les problèmes et les jeux de données les plus susceptibles de bénéficier de l’IA représentent leur propriété intellectuelle la plus sensible et la plus exclusive, et il peut être intolérable de la confier à un tiers », avancent les porte-parole de Databricks dans un communiqué. « Nous pensons que la plupart des utilisateurs de ML ont tout intérêt, à long terme, à posséder directement leurs modèles ».
Il ne faut pas se leurrer. L’initiative n’est pas philanthropique. Selon Matei Zaharia, les projets NLP et NLG se multiplient chez les clients de Databricks.
« Les entreprises et les organisations s’intéressent beaucoup à l’utilisation du traitement du langage naturel dans le domaine de l’analytique », note-t-il. « Nous avons déjà un millier de clients qui entraînent des modèles de langage sur des données, généralement pour des tâches plus spécifiques comme la classification ou le suivi d’instructions. Nous constatons qu’il y a beaucoup de projets, dont un bon nombre en production, et nous pensons qu’il y en aura d’autres ».
C’est pour des cas d’usage spécifiques que Genesys, l’éditeur spécialiste des solutions de centre de contacts, s’appuie sur les services d’HuggingFace. Il est en train de superviser l’entraînement de BLOOM sur des données publiques, et privées (environ 20 % du data set). « Nous nous concentrons sur la production de résumés de conversation entre un agent et les clients. Cela arrivera très vite en production », signale Olivier Jouve, EVP & Chief Product Officer chez Genesys. « Nous préparons d’autres cas d’usage, mais cela demande davantage d’affinage pour obtenir des résultats avec le moins d’erreurs possible ».
Olivier JouveEVP & Chief Product Officer, Genesys
Comme à son habitude, Genesys laissera ses clients utiliser le modèle d’IA générative de son choix. « ChatGPT est beaucoup plus cher pour l’instant. Avec notre modèle, nous obtenons un résultat équivalent avec un coût bien moindre pour nos clients », avance Olivier Jouve.
Toutefois, le CTO de Databricks pense qu’il y a encore beaucoup de progrès à faire pour que ces modèles d’IA générative « émergents » soient réellement utiles dans les entreprises. Outre la production de contenus dangereux, ils sont susceptibles d’inventer des faits, de créer des « hallucinations ». Le monde de la recherche s’attaque déjà à ce problème.
« Tout cela est encore très frais […]. Dans mon groupe de recherche à l’Université de Stanford, nous travaillons sur le moyen de faire en sorte que ces modèles produisent uniquement des faits ou des informations vérifiées », renseigne Matei Zaharia.