Elnur - stock.adobe.com
Dix pistes pour diminuer l’empreinte environnementale de vos projets de GenAI
L’Intelligence artificielle générative est très énergivore (et donc coûteuse). Deux experts partagent leurs recettes pour éviter cet écueil et mieux organiser vos projets d’IA générative.
Dans la seconde partie de cet entretien, Isabelle Ryl (Vice-president for AI & director of Paris Artificial Intelligence Research Institute, PSL Research University) et Jean-Baptiste Bouzige (CEO et co-fondateur d’Ekimetrics) partagent leurs conseils pour limiter l’empreinte écologique de vos projets d’IA générative (cf. encadré en fin de cet entretien). Ils dressent au passage un tour d’horizon des évolutions des LLMs vers plus de sobriété.
Dans la première partie, ils revenaient sur les trois risques que ferait courir à votre entreprise le fait de ne pas se préoccuper de la consommation énergétique des LLMs.
Saturation des ressources des fournisseurs de GenAI
LeMagIT : Que faire pour diminuer l’empreinte environnementale de la GenAI ?
Jean-Baptiste Bouzige : Le mieux, de mon point de vue, c’est de s’occuper des deux facettes du problème en même temps. Augmenter l’efficience des LLMs. Et rationaliser les usages. Mais c’est souvent par le second qu’on gagne le plus. C’est l’usage que l’on ne fait pas qui consomme le moins.
Isabelle RylVice-president for AI, director of Paris Artificial Intelligence Research Institute, PSL Research University
D’autant qu’il y a déjà une saturation des ressources des fournisseurs cloud. Si je mets du LLM partout chez mes clients, et même si je ne m’occupais pas de la consommation, ils ne pourraient pas avoir leur modèle live. Aujourd’hui, on ne peut pas servir tout le monde en capacité de calcul. Tous les grands groupes ont cartographié leurs 100 cas d’usage. Si demain, avec une baguette magique, on les implémentait, un Azure ne serait pas en mesure de les livrer.
Isabelle Ryl : Je dresse le même constat. Plusieurs grands groupes partenaires nous ont indiqué qu’ils avaient identifié des centaines d’utilisations possibles de LLMs dans leurs entreprises. Mais pourquoi les ont-ils identifiés ? Car cela répond à une commande interne de cartographie, et pas à une nécessité constatée sur le terrain. La vraie question est : en avaient-ils réellement besoin ?
LeMagIT : Vous recommandez donc de sélectionner plus rigoureusement les cas d’usage ?
Jean-Baptiste Bouzige : Nous recommandons de circonscrire l’usage des LLMs aux parties de la chaîne où ils sont absolument incontournables. Typiquement : le Q&A, l’interface homme-machine, le dialogue, le résumé de texte. Les outils de Gen AI sont aussi bons pour produire du contenu (et « prédire le prochain mot »).
Mais on recommande de déporter dans des modèles plus petits, plus spécialisés, un certain nombre de choses qui, notamment, injectent des connaissances métiers. Cette partie peut être traitée par du NLP beaucoup plus classique – même chose pour la reconnaissance des entités nommées ou l’interprétabilité des sentiments.
IA générative ou pas IA générative ? Telle est la question.
LeMagIT : Mais comment savoir quand utiliser l’IA générative et quand utiliser d’autres types d’IA ?
Jean-Baptiste Bouzige : L’usage ou non d’un LLM va se définir par la complexité de la question, le nombre d’interactions, le besoin de temps réel ou pas.
Jean-Baptiste BouzigeCEO et co-fondateur d’Ekimetrics
Par exemple, L’Oréal avait un projet de modèle de langage pour ses équipes de développement des nouveaux produits. Ils voulaient avoir des retours très fins et très rapides de la part des consommateurs. Si vous changez les ingrédients d’un produit pour le rendre plus durable, il se peut que cela provoque un problème de rinçabilité ou de texture, etc. L’Oréal voulait savoir cela. Mais il y aurait eu tellement d’inférences sur ces modèles dans ce cas précis, que cela a été un « no-go » sur du LLM. Et on a utilisé du NLP plus classique.
Il y a aussi la question de la spécialisation attendue. Les modèles les plus larges ont des difficultés à être pointus.
LeMagIT : Le RAG (Retrieval Augmented Generation) permet à des modèles d’être plus précis en les couplant à des bases de connaissances. Mais certains disent que cela peut aussi augmenter la consommation globale de la GenAI. Qu’en est-il ?
Jean-Baptiste Bouzige : On peut beaucoup gagner avec le RAG. De manière générale, pour tous les types d’IA, décomposer la complexité pour mettre le plus possible de connaissances métiers en amont est une bonne idée. Nous appelons cela la « Source Grounded AI ».
La manière dont on travaille la donnée d’entrée a une valeur énorme par rapport à l’amélioration de 1 % ou 2 % de l’algorithme lui-même. Le RAG permet de moins solliciter le modèle, ou permet de solliciter de plus petits modèles pour être plus efficace.
Small is beautifull
LeMagIT : Vous recommandez aussi de plus petits modèles ?
Jean-Baptiste Bouzige : Oui et de mixer les types d’IA. Quand vous avez une complexité de 1 000, c’est mieux de faire 10 x 10 x 10 avec trois (petits) modèles combinés. Déjà en matière de consommation, mais aussi de maîtrise, notamment pour l’IA responsable.
Jean-Baptiste BouzigeCEO et co-fondateur d’Ekimetrics
C’est une autre règle de base. Plus vous vous décomposez, plus vous maîtrisez chacun des blocs. Or, les clients cherchent de la fiabilité, de l’hyper-pertinence, du contrôle. Ils veulent des modèles résilients. Si un modèle diverge à un moment, il faut être capable de savoir pourquoi, pour le contrôler au plus vite.
Plus vous maîtrisez chaque bloc de la chaîne, mieux c’est. Être capable de juste remplacer « cette vis », plutôt que de re-entraîner tout le moteur parce que le contexte a changé. C’est très important.
Et plus le modèle est ultraspécialisé, moins il consomme d’énergie. Or les petits modèles sont souvent des modèles qu’on a spécialisés.
Isabelle Ryl : Le passage à l’échelle pour l’IA est un défi et une partie de la solution passe par là. LightOn, une start-up française, s’est spécialisée avec succès dans le développement de modèles plus petits, plus performants.
Dans la course au plus grand, plus cher, plus de calcul, nous ne pouvons pas gagner, il nous faut donc faire preuve d’innovation pour trouver des solutions moins gourmandes.
Jean-Baptiste BouzigeCEO et co-fondateur d’Ekimetrics
Jean-Baptiste Bouzige : Je suis d’accord. Le gain incrémental d’aller toujours plus loin dans les très grands modèles sera inférieur aux énormes gains que l’on peut avoir en spécialisant les modèles, ou en les hybridant (c’est-à-dire en les combinant à d’autres formes d’IA).
Le dogme de la Silicon Valley, c’est de dire que plus on a de données, plus on a de puissance, mieux c’est. Mais un modèle plus interprétable est souvent plus efficace économiquement, plus résilient… et comme il sera plus compris par les équipes, il sera aussi plus adopté.
Dans la prise de décision, plus on est sur le stratégique, plus il faut savoir reconnaître le domaine de validité du modèle. Et c’est une des grandes difficultés avec les très grands modèles de langage.
Limiter les usages des LLMs
LeMagIT : J’aimerais revenir sur votre conseil de « circonscrire l’usage des LLMs ». L’idée est-elle de traiter le plus possible d’informations avec des technologies plus frugales, puis de prendre le relais avec un LLM, uniquement pour les usages où il surperforme (Q&A, etc.) ?
Jean-Baptiste Bouzige : Tout à fait. L’exemple c’est notre « ClimateQ&A » qui est devenu un outil de référence sur les rapports du GIEC. Dans cet outil, toute la sélection des paragraphes pertinents pour une question est faite avec des modèles NLP. Il y a 4 ou 5 modèles d’IA [classiques] en amont du moment où on demande au LLM de résumer.
En plus, sur un sujet comme le GIEC, nous ne voulions pas laisser passer d’erreur. Il fallait tout sourcer. C’est une vraie compétence, car chaque type de source a son propre langage.
On ne fait pas du RAG sur une source juridique, comme sur une publication scientifique, ou sur article de presse. Un article de loi, par exemple, doit être pris dans sa totalité. C’est une façon différente de traiter la reconnaissance des entités nommées.
Pour le faire correctement, cela réclame une finesse technique dans la traduction des langages métiers. Et faire cela, c’est une autre compétence que le développement d’un LLM. Il n’y en a pas un qui est mieux que l’autre, c’est complémentaire.
Évolutions des LLMs et pistes de recherche
LeMagIT : Du côté des LLMs eux-mêmes, y a-t-il des recherches et des avancées qui réduisent leurs consommations ?
Isabelle RylVice-president for AI, director of Paris Artificial Intelligence Research Institute, PSL Research University
Isabelle Ryl : Oui, tout le monde travaille pour réduire la taille et la consommation des modèles. C’est une tendance de fond pour des raisons environnementales, pour des raisons de coût, et pour des raisons de disponibilité des données. Par ailleurs, pour certains domaines spécifiques dans lesquels il n’y a que peu de données, trouver des moyens de réduire la quantité de données utilisée est vital.
LeMagIT : Pouvez-vous nous donner quelques exemples de recherches pour illustrer différentes tendances de l’évolution des LLMs ?
Isabelle Ryl : Oui. Jamal Atif, professeur à Dauphine-PSL a par exemple travaillé avec un étudiant en thèse sur le cœur du réacteur : les réseaux de neurones. Dans ces réseaux de neurones, les multiplications de matrices sont très nombreuses. Elles représentent de grandes quantités de calculs qui sont très coûteuses. On peut réduire cette quantité en travaillant sur la forme des matrices par exemple en utilisant des décompositions mathématiques.
Sans entrer dans le détail, l’important c’est qu’en changeant le nombre d’opérations de calcul, comme la formule est répétée un très grand nombre de fois, on diminue la consommation.
Isabelle RylVice-president for AI, director of Paris Artificial Intelligence Research Institute, PSL Research University
Autre exemple, l’équipe de Benoît Sagot, chercheur au Collège de France, a sorti CamemBERT (puis une série de modèles). Ils ont montré, de manière préliminaire, qu’il n’y a pas que la taille des modèles qui compte. La quantité et surtout la qualité des données comptent aussi énormément.
En réentraînant un CamemBERT sur une même quantité de données, par exemple purement Wikipédia (assez homogène) ou aléatoirement sur le net, le deuxième est plus performant. Au-delà du nombre de paramètres, l’idée est que faire des choses plus finement s’avère beaucoup plus rentable.
Avec la même philosophie, Mistral MOE coûte beaucoup moins cher en inférence parce qu’il est plus modulaire. C’est un peu comme s’il ne lançait qu’une sous-partie du modèle et pas l’ensemble. Donc, il consomme moins, naturellement.
Penser à l’industrialisation de la GenAI dès le PoC
LeMagIT : Un autre conseil que vous donnez est de penser à l’industrialisation et au passage à l’échelle dès la phase de PoC. Pourquoi est-ce très important ?
Jean-Baptiste Bouzige : Il faut effectivement se poser la question du « scale » avant de faire des prototypes. Nous parlons « d’industrialisation by design ».
Jean-Baptiste BouzigeCEO et co-fondateur d’Ekimetrics
C’est important parce qu’on a vu beaucoup d’entreprises qui arrêtent quand elles se rendent compte de la consommation et du coût, dès qu’on sort du périmètre du prototype.
Chez L’Oréal, qui est une organisation très mature sur ces sujets, des projets restent volontairement en local parce que les industrialiser coûterait trop cher au niveau global. Et il y en a d’autres où ils se disent qu’il faut absolument un seul système pour tout le monde.
La deuxième chose, c’est qu’il y a des legacy. Il y a des endroits où on aimerait utiliser un modèle qu’on juge plus adapté à une tâche, mais où on doit en utiliser un autre parce que la stack du client, historiquement, est constituée d’une certaine manière. Et ça, il faut y penser dès le départ… Même si les clients les plus matures ont des stacks hybrides et peuvent utiliser du OpenAI alors qu’ils ont du GCP par exemple.
LeMagIT : Un mot de la fin pour conclure cet entretien ?
Isabelle Ryl : Mon sentiment est qu’il n’y a pas de solution magique. Il n’y a pas une seule piste de recherche qui dise que pour avoir une IA peu coûteuse dans 10 ans, il faut faire ça ou ça.
C’est encore le moment où tout le monde défriche dans son secteur, obtenant quelques gains. À terme, la somme de ces gains nous conduira vers des IA plus frugales.
Jean-Baptiste Bouzige : Oui, et les LLMs seront, d’ici quelques mois, un outil comme les autres, un de plus, dans la boîte à outils IA. Avec ses avantages et ses défauts.
Comme pour toute IA, il faut être malin dans la donnée que l’on présélectionne et que l’on ingère. Il ne faut pas systématiquement travailler sur tout.
Il faut explorer la piste des raccourcis dans les calculs. Il faut trouver des proxys, où l’on perd finalement peu, mais où l’on gagne beaucoup en consommation. Dans la façon de le délivrer au client, il faut aussi se demander si on a vraiment besoin de requêter aussi souvent le modèle. Est-ce que c’est du temps réel ou du batch ?
Et surtout, j’insiste, mais il faut questionner les usages. On sort d’une année où tout le monde voulait faire du LLM pour faire du LLM. Il va falloir être plus ou moins proactif en fonction des maturités des entreprises pour pivoter, et se demander plutôt quel est l’objectif business. Et dans la réponse il y aura – peut-être – du LLM. Ou pas.
Les 10 conseils pour réduire l’impact énergétique de la GenAI
1. Rationaliser les usages des LLMs et les circonscrire aux cas où ils sont vraiment incontournables (interface conversationnelle, résumés, etc.)
2. Déporter certaines tâches vers des modèles plus petits et spécialisés comme le NLP classique pour la reconnaissance d’entités, l’analyse de sentiments, etc.
3. Décomposer les problèmes complexes en combinant plusieurs petits modèles plutôt qu’un seul très gros modèle.
4. Utiliser des techniques comme le RAG (Retrieval Augmented Generation) pour réduire la sollicitation des LLMs.
5. Travailler en amont sur la sélection et la qualité des données d’entraînement.
6. Optimiser les calculs sous-jacents par des techniques mathématiques.
7. Ne lancer qu’une sous-partie des calculs à l’inférence quand c’est possible.
8. Favoriser des modèles plus interprétables et spécialisés plutôt que des modèles généralistes surdimensionnés.
9. Suivre et chercher à réduire les coûts et la consommation en tokens/paramètres.
10. Éduquer les entreprises et les utilisateurs sur les bons et les mauvais usages des LLMs.