weerapat1003 - stock.adobe.com
Faire une IA générative moins énergivore (l’exemple de Workday)
L’intelligence artificielle générative est énergivore, que ce soit lors de l’entraînement ou pendant l’inférence. Mais plusieurs solutions existent pour réduire son coût et son empreinte énergétiques. L’ex-ingénieur de la NASA et co-président de Workday partage 6 pistes. Qu’il invite à combiner.
C’est une tendance de fond. Les éditeurs ajoutent, les uns après les autres, de l’IA générative dans leurs applications métiers. Oracle, Microsoft (Dynamics), SAP dans l’ERP, Salesforce dans le CRM, ou encore ServiceNow dans le case management. Workday dans le SIRH et le Core Finance est aussi représentatif de ce mouvement. Son Rising EMEA 2023 a été placé sous le signe de l’IA en général, et de la GenAI en particulier.
Mais l’Intelligence artificielle générative est particulièrement énergivore. Et dans le même temps, les entreprises clientes et les utilisateurs commencent à être plus regardants sur l’empreinte carbone de leurs outils. « Et ils ont raison de l’être ! », abonde le co-président de Workday, Sayan Chakraborty.
Se pose alors la question de savoir s’il est possible de concilier ces deux mouvements contraires.
La nécessité d’une IA générative plus frugale
Pour Sayan Chakraborty, oui, c’est possible. Sa réponse est intéressante, car le co-président de Workday est triplement bien placé sur ce sujet.
D’abord parce que Workday ne se repose pas sur des services tiers (pas d’OpenAI) et que la société développe elle-même ses IA sous l’autorité de Sayan Chakraborty. Ensuite parce que Sayan Chakraborty fait partie des 25 membres de la National Artificial Intelligence Advisory Committee (NAIAC) chargée de conseiller le Gouvernement américain sur les différentes implications de l’IA.
Enfin parce que Sayan Chakraborty est lui-même ingénieur et data scientist (diplômé du MIT et ancien du prestigieux Jet Propulsion Laboratory de la NASA). « J’ai écrit mon premier réseau de neurones en 1990 », confie-t-il au MagIT, avant de partager six leviers pour réduire l’empreinte énergétique des LLMs et leurs coûts.
Car l’IA générative consomme beaucoup et coûte cher. « L’inférence d’une IA générative – par exemple pour un moteur de recherche – coûte 7 à 10 fois plus cher, par exemple, que le fonctionnement “classique” d’un Google » chiffre-t-il.
1 – De l’énergie propre, tu sélectionneras
Si l’IA est bien énergivore, Sayan Chakraborty insiste : elle fait aussi partie de la solution pour lutter contre le réchauffement climatique, en aidant par exemple à optimiser des process et donc à limiter les émissions.
« Ceci mis à part, être zéro carbone est un objectif très important » assure le co-président de Workday. Sa première recommandation sonne comme une évidence. Mais certaines évidences sont bonnes à rappeler : même une IA frugale optimisée consomme de l’énergie, autant donc utiliser de l’énergie verte.
Le rappel vaut d’autant plus que l’IA générative n’est pas frugale.
« Nous investissons massivement dans des centres de données entièrement alimentés par des énergies renouvelables », souligne Sayan Chakraborty. « C’est un engagement que nous avons pris depuis très longtemps avant l’IA. »
Ceci étant dit, comment réduire la consommation elle-même des LLM ?
2 – Tes données d’entraînement, tu nettoieras
Dans l’IA générative, on parle souvent du nombre de paramètres. C’est un facteur qui compte. Plus un LLM est gros, plus il consomme. Mais Sayan Chakraborty aborde le problème sous un autre angle : celui des données.
« De manière empirique, on constate qu’un grand modèle de langage (LLM) entraîné sur des données de qualité, sélectionnées de manière pertinente, est environ 50 fois plus performant qu’un modèle de même taille entraîné sur des données non sélectionnées », compare-t-il. « Ce point a été confirmé par de nombreuses études ».
Si l’on inverse la logique, pour Sayan Chakraborty, il est donc possible d’atteindre le résultat d’un gros LLM avec un modèle 50 fois plus petit, mais entraîné avec précision.
3 – Le nombre de paramètres du modèle, tu réduiras
Or un modèle plus petit a le double avantage de « réduire radicalement les coûts d’entraînement [N.D.R. : et de fine-tuning] et les coûts d’inférence [N.D.R. : mise en production]. »
Ce qui explique d’ailleurs que l’industrie travaille de plus en plus sur des LLM avec un nombre de paramètres plus réduit.
GPT-4 d’OpenAI aurait plusieurs centaines, voire un millier de milliards de paramètres. Claude 2 de son concurrent Anthropic possède 130 milliards de paramètres. Et le plus gros modèle de Cohere avoisine les 50 milliards.
Mais Llama 2 de Meta/Facebook est disponible en trois versions, dont une avec « seulement » 7 milliards de paramètres (les deux autres étant de 13 et 70 milliards). Coehere planche sur des LLM à 6 milliards de paramètres (et même en bêta sur un modèle à 410 millions de paramètres). Même stratégie chez Google avec Gemini, disponible en trois versions : Pro, Ultra et Nano. Cette dernière se déclinant en deux modèles de seulement 1,8 et 3,25 milliards de paramètres.
En France, Mistral AI propose un LLM de 7 milliards de paramètres.
« Si je n’ai pas besoin d’un modèle à 500 milliards de paramètres, et si je peux atteindre le même objectif avec un modèle à 10 milliards de paramètres, vu comment fonctionne un réseau neuronal, ce ne sera pas dix ou cinquante fois moins cher ou énergivore, mais exponentiellement moins », conclut Sayan Chakraborty.
4 – Les modèles, tu mélangeras
Il peut cependant arriver qu’un « petit » modèle ne fasse pas, seul, l’affaire. Plutôt que de recourir à un gros modèle généraliste, exponentiellement plus énergivore, donc, l’expert du NAIAC recommande de mélanger des modèles spécialisés.
« Nous utilisons des modèles beaucoup plus petits et de haute qualité que nous combinons souvent dans ce que nous appelons “un mix d’expertises”. Dans cette approche, chaque modèle est très qualifié pour connaître et faire une chose très bien » détaille Sayan Chakraborty.
Pour lui, mélanger des LLM est beaucoup moins coûteux à exploiter, plus simple à entraîner, et permet d’obtenir la même qualité qu’un gros LLM avec une empreinte carbone réduite.
5 – Les mathématiques, tu connaîtras
Réduire l’impact d’un LLM demande aussi, parfois, de rentrer dans la machinerie mathématique qui sous-tend l’IA générative.
« Fondamentalement, un réseau de neurones repose sur la multiplication de matrices […] C’est d’ailleurs pour cela que l’on utilise des GPU. Ils ont été inventés pour accélérer les jeux vidéo en multipliant deux matrices l’une avec l’autre, encore et encore, aussi rapidement que possible pour obtenir des images – dans le passé c’était 60 fois par seconde, aujourd’hui 240 fois par seconde », rappelle Sayan Chakraborty. « C’est donc le même problème que rencontrent les réseaux neuronaux. [D’où] l’utilisation de GPU pour deux choses complètement différentes et en théorie sans rapport, mais qui sont, mathématiquement, exactement la même chose ».
Ces calculs massivement parallèles consomment énormément. Il est cependant possible d’économiser des ressources en les simplifiant. Il faut être plus subtil que la méthode de « force brute » invite Sayan Chakraborty. D’autant que des techniques existent depuis très longtemps. « La plupart d’entre elles ont été inventées par Carl Friedrich Gauss et Leonard Euler… au XVIIIe siècle », sourit le co-président de Workday. « Ces maths sont très bien comprises et maîtrisées. On sait comment réintégrer de l’algèbre linéaire. Et c’est ce que nous faisons ».
D’autres techniques, comme LoRA, poursuivent le même objectif. Le principe est « de trouver des valeurs que l’on peut remplacer par un zéro dans la matrice. Parce que quand on multiplie par zéro, tout devient des zéros. Il y a moins de calcul à faire, et c’est plus rapide », résume Sayan Chakraborty.
6 – Le contexte, tu limiteras (mais pas trop non plus)
Reste que d’autres facteurs vont inévitablement augmenter l’empreinte énergétique de l’IA Générative : les fenêtres de contexte et autres RAG – c’est-à-dire les informations, les documents et les directives que l’on ajoute en amont d’un LLM.
Mais « ces forces » (sic) s’imposent et continueront de s’imposer, prévoit le co-président de Workday, « parce qu’elles apportent des bénéfices énormes ».
« Cela va augmenter la qualité, mais cela va aussi augmenter le coût et l’empreinte [des IA Génératives] », anticipe-t-il.
Une solution pourrait consister, ici aussi, à limiter le contexte en l’optimisant et en ciblant au mieux les informations ajoutées. Une autre, qui n’est pas contradictoire, est que « nous devons appliquer toutes les techniques [ci-dessus] en même temps ».
Propos recueillis lors de Workday Rising EMEA 2023.