Conseil

Combien de personnes faut-il pour entraîner un grand modèle de langage ?

L’étude des articles de recherche et des rapports techniques démontre qu’en à peine un an les grands du secteur ont très largement gonflé les effectifs des laboratoires R&D, afin de déployer leurs modèles d’IA générative. Pour autant, les équipes de moins de 20 personnes, à condition qu’elles aient accès aux ressources de calcul suffisantes, peuvent rivaliser avec les projets des GAFAM et d’OpenAI.

par

Gaétan Raoul, LeMagIT

Publié le: 14 déc. 2023

Avec l’émergence fulgurante de l’IA générative, les géants du cloud ont massivement investi dans les startups à la source de ces modèles gourmands en ressources de calcul et dans leurs propres équipes.

Non seulement ces géants et leurs partenaires ont les fonds, mais aussi les moyens humains pour mener à bien leurs projets. L’affaire de l’éviction puis la réintroduction de Sam Altman, PDG d’OpenAI, a permis de mettre en lumière les plus de 700 employés de la licorne. Anthropic, sa rivale, compte 160 collaborateurs, tandis que le Canadien Cohere revendique plus de 200 salariés.

Leurs concurrents français et européens – Mistral AI, LightOn et Aleph Alpha – doivent respectivement compter sur 22, 26 et environ 50 collaborateurs.

Certes, ces acteurs se sont réellement lancés après OpenAI. Ont-ils une chance face à ces mastodontes ? Disposent-ils des capacités humaines pour développer des modèles capables de rivaliser avec les LLM les plus populaires ?

Pour tenter de répondre à cette question, il faut se pencher sur les articles de recherche et les livres blancs publiés en complément des modèles eux-mêmes.

Ils permettent de chiffrer, voire d’identifier les individus qui entraînent et développent les modèles.

Si OpenAI ne révèle plus les clés de sa réussite, elle crédite les contributeurs principaux à l’entraînement et au développement de GPT-4. LeMagIT a énuméré 290 individus ayant participé à la conception, l’entraînement, le déploiement, la supervision, l’affinage, l’habillage, la commercialisation, la communication autour de cette collection de LLM.

Environ 70 personnes comptabilisent au moins cinq contributions aux tâches répertoriées dans l’article. Un peu plus de 50 ingénieurs et chercheurs ont réalisé plus de 5 tâches, certains jusqu’à 11 tâches différentes. Ce même rapport répertorie officiellement 87 contributeurs principaux. Dans l’article de recherche consacré à GPT-3 et publié en juillet 2020, OpenAI énumère 31 chercheurs et ingénieurs.

Plus de 940 personnes créditées pour faire naître Gemini

Chez Google, les chiffres sont frappants. Le rapport publié en mai 2023, qui accompagnait la sortie de PaLM 2, répertorie 128 contributeurs. Pour Gemini, Google a rapproché les équipes de Google Research, de DeepMind et d’autres laboratoires pour un total de… 943 personnes ayant travaillé sur le projet. Le livre blanc publié le 6 décembre liste 36 responsables d’équipes, deux responsables du programme Gemini, et deux responsables techniques. À cela s’ajoutent 418 contributeurs principaux et 485 contributeurs ayant partiellement travaillé au développement de la collection. En octobre 2022, Google Research listait 67 contributeurs dans l’article de recherche consacré à PaLM, premier du nom. Depuis, les équipes de Google Research et de DeepMind sont sous la même direction. Pour rappel, le projet fondateur de l’ère de naissance des grands modèles de langage (l’architecture Transformer décrite par l’article « Attention is all your need » en 2017) est le fruit du travail de huit chercheurs de Google.

Et du côté de Meta ? L’article consacré à Llama 2 mentionne 68 contributeurs principaux, mais les chercheurs précisent qu’une « équipe de plus de 350 personnes » a été constituée pour réaliser les efforts de red teaming. En février 2023, Meta publiait l’article accompagnant Llama 1. Le projet était mené par 14 chercheurs et ingénieurs, dont Guillaume Lample, un des cofondateurs de Mistral AI. Chez la startup française, le petit rapport technique consacré à son premier modèle, Mistral 7B, référence, lui, 17 personnes ayant travaillé sur le projet.

Pour Laurent Daudet, cofondateur et PDG de LightOn, les approches d’OpenAI et de Google sont « un peu extrêmes ». « Regardez l’article consacré à la collection de modèles open source Falcon auxquels les chercheurs de LightOn ont participé, il liste 12 à 15 personnes. Certes, GPT-4 reste devant, mais Falcon 180B et l’un des meilleurs modèles au monde actuellement », affirme-t-il. En effet, la « Falcon LLM Team » se compose exactement de 14 personnes. Dans la fiche technique consacrée à Alfred 40B-1023 (pour octobre 2023), le modèle dérivé de la variante à 40 milliards de paramètres, l’on apprend que six personnes ont mené ce projet de fine-tuning.

Il n’est pas compliqué de comprendre cette propension soudaine des GAFAM à peupler leurs équipes. Le succès de ChatGPT a provoqué une ruée vers l’or chez les géants de la Tech. L’organisation mise en place par OpenAI montre bien qu’il ne s’agit plus seulement d’entraîner des LLM, mais de préparer leur commercialisation à grande échelle.

Une internalisation des processus de mise en qualité de données

Le cas Google est différent : si le géant du cloud infuse ses modèles dans ses produits, l’énorme équipe de recherche constituée autour de Gemini tend à prouver qu’il a internalisé une grande partie du travail de préparation de données et de red teaming du modèle. Comme Meta AI, les chercheurs de Google ont constaté qu’ils obtenaient de meilleurs résultats avec des données de bonne qualité et qu’il faut contrôler en interne ce processus par une combinaison de moyens humains et automatiques (algorithmes, filtres, règles, etc.). Une observation également effectuée par Databricks lors de la constitution d’un jeu de données de paires de questions-réponses auprès de ses 5 000 employés. Chez Google, cette internalisation va de pair avec une volonté de mieux contrôler les aspects techniques, commerciaux, au sein de l’entreprise et ceux de communication vers l’externe. Il faut aussi rappeler que les modèles deviennent multimodaux, ce qui réclame plus d’expertise. Par exemple, chez OpenAI, une équipe était dédiée à l’entraînement des capacités de traitement des images de GPT-4.

Pour autant, OpenAI comme Mistral AI n’ont pas prévu d’internaliser certains aspects. Par exemple, la société menée par Sam Altman a constitué un réseau de « red teamers » volontaires en dehors de ses murs, pour éprouver la fiabilité de ses modèles. Mistral espère bien recevoir l’aide de la communauté pour maîtriser les contenus générés par ses modèles.

La concurrence réelle de la communauté open source

De plus, les grandes équipes sont concurrencées par la communauté ouverte.

« J’ai pris mon poste chez Hugging Face en août 2022. En septembre, j’ai comptabilisé 90 000 modèles d’IA hébergés sur la plateforme. Le 28 novembre, nous étions à plus de 414 000 modèles référencés ».

Bassem AssehDirecteur des ventes, Hugging Face

« J’ai pris mon poste chez Hugging Face en août 2022. En septembre 2022, j’ai comptabilisé 90 000 modèles d’IA [machine learning et deep learning confondus, N.D.L.R.] hébergés sur la plateforme. Le 28 novembre, nous étions à plus de 414 000 modèles référencés », avance Bassem Asseh, directeur des ventes chez Hugging Face.

Il s’agit plus précisément des checkpoints enregistrés par les utilisateurs de la plateforme inspirée de GitHub : il peut exister plusieurs variantes ou configurations d’un même modèle. Ce 14 décembre, LeMagIT a comptabilisé plus de 433 000 checkpoints, dont plus de 37 000 consacrés à la génération de texte, et plus de 13 500 cartes de modèles « text to images ».

La plupart de ces modèles sont dérivés de LLM open source ou soumis à des licences permissives. Ces petites équipes, parfois composées de deux ou trois personnes, s’illustrent généralement par l’optimisation et le fine-tuning de modèles existants. En revanche, elles peuvent trouver de nouvelles techniques beaucoup plus rapidement que les mastodontes, occasionnellement contraints par la lourdeur de leurs mégamodèles.

Pour Upstage (125 employés listés sur LinkedIn), une startup coréenne spécialisée dans l’IA, c’est un moyen de briller en dehors de ses frontières. Son modèle de suivi d’instructions doté de 10,7 milliards de paramètres (Solar 10,7 B Instruct) est prétendument meilleur que Mixtral, le modèle de Mistral AI disponible depuis quelques jours, qui lui-même serait presque aussi performant que GPT-3.5. En tout cas, Upstage se hisse à la tête du classement mis en place par Hugging Face.

Une petite équipe n’est pas un problème, mais l’accès limité aux ressources de calcul, oui

La constitution d’un petit pôle R&D n’est donc pas un frein à l’entraînement des modèles performants. Certaines tâches de traitement de données et de filtrage de contenus – qui pourraient devenir obligatoires avec l’AI Act – peuvent être externalisées. Preuve en est LightON et Mistral AI, qui prévoient avant tout d’étoffer leurs équipes techniques et commerciales pour développer les produits entourant leurs collections de LLM. Évidemment, il est moins évident pour des entreprises européennes – disposant des fonds limités de surcroît – d’accéder aux profils les plus compétents. De son côté, LightON mise sur la formation en interne des nouveaux venus, selon Laurent Daudet.

Bien qu’expertes dans leurs domaines, les startups et les petits instituts de recherche sont toutefois limités par un aspect : « il faut surtout beaucoup de capacités de calcul », insiste le PDG de LightON. Ces trois dernières années, les géants comme AWS, GCP, Microsoft et Meta ont largement étoffé leurs supercalculateurs. Les fournisseurs européens tentent de suivre. En France, ils sont soutenus par le président de la République qui a insisté sur la nécessaire maîtrise souveraine des infrastructures matérielles et logicielles. Les HPC universitaires et publics européens confient des crédits aux projets d’IA générative, mais gèrent aussi des listes d’attente. Les jeunes pousses doivent donc multiplier les partenariats et les candidatures pour s’assurer l’accès à cette puissance de calcul. « Nous faisons notre marché de manière opportuniste : nous utilisons des ressources fournies par le GENCI, AWS et d’autres », renseigne Laurent Daudet. « Nous ne voulons pas être liés à un seul fournisseur ». Mistral AI s’est rapprochée de Scaleway, de CoreWeave, mais aussi de Google Cloud. Aleph Alpha, elle, s’est rapprochée de HPE pour assembler, en Allemagne, Alpha One, un HPC classé 105e au Top500 (pic théorique de 7,62 Pétaflops).

Combien de personnes faut-il pour entraîner un grand modèle de langage ?

Plus de 940 personnes créditées pour faire naître Gemini

Une internalisation des processus de mise en qualité de données

La concurrence réelle de la communauté open source

Une petite équipe n’est pas un problème, mais l’accès limité aux ressources de calcul, oui

Pour approfondir sur Intelligence Artificielle et Data Science

IA générative : le Français LightOn lance un OCR pour exploiter les documents sensibles et complexes

Covéa et Orange montrent que des alternatives aux IA américaines peuvent réduire les risques

L’Afnic passe à l’IA générative, mais avec une IA souveraine

L’IA générative fait son entrée dans l’enseignement supérieur