sulit.photos - stock.adobe.com

IA générative : petit modèle, petit bilan carbone ?

S’il est évident qu’un petit modèle d’IA générative est plus efficient à l’entraînement qu’un grand LLM, cela ne veut pas forcément dire que son empreinte carbone est exemplaire. Techniques d’entraînement, volume de données utilisé, infrastructure et réseaux d’énergie… beaucoup de critères peuvent la faire varier.

Il y a petit et petit modèle d’IA générative. Pour entraîner un small language model (SLM), il y a – essentiellement – deux moyens. Le premier, le plus répandu, consiste à sélectionner un LLM pour en « distiller » les connaissances. Cette technique de fine-tuning consiste à transférer l’apprentissage d’un modèle à un autre plus petit. Pour éviter les erreurs de prédiction ou le surentraînement, l’on ne réutilise pas les données d’apprentissage initial.

Au lieu de cela, le grand modèle – ici considéré comme un enseignant – est utilisé pour valider ou non la qualité des réponses du plus petit modèle – un élève. Il s’agit d’entraîner ce modèle étudiant afin qu’ils reproduisent les prédictions et les distributions de probabilité de son maître. Pour cela, il s’agit de labéliser les données générées par le modèle et de les utiliser comme maître étalon. Voilà comment les géants technologiques forment leurs collections de modèles. 

Les techniques d’entraînement jouent sur le bilan carbone

Toutefois, il faut prendre en compte le bilan énergétique d’une telle méthode. Si la distillation n’est pas très énergivore, ce n’est pas le cas de l’entraînement d’un LLM.

Selon l’observatoire Climat des Hauts de France, 290 tonnes équivalent CO2 correspondent aux émissions de l’artificialisation d’un hectare de forêt.

Dans son article de recherche, Meta AI signale que LLama 2-70B, qui n’est pourtant pas le modèle le plus gros sur le marché, a nécessité 1 720 320 heures GPU d’entraînement, une étape qui a émis 291,42 tonnes équivalent CO2. Llama 2-7B, qui a été entraîné à l’aide de la fameuse technique de distillation, a nécessité 184 320 heures GPU pour un bilan carbone de 31,22 tonnes équivalent CO2.

À titre de comparaison, selon l’observatoire Climat des Hauts de France, 290 tonnes équivalent CO2 correspondent aux émissions de l’artificialisation d’un hectare de forêt, car les gaz à effet de serre ne sont plus stockés. En clair, pour compenser l’entraînement de Llama 2-70B, il faudrait planter un hectare de forêt qui… mettra 30 à 40 ans à remplir pleinement son rôle. 

Pour compenser l’entraînement de Llama 2-70B, il faudrait planter un hectare de forêt qui… mettra 30 à 40 ans à remplir pleinement son rôle.

Au moment d’entraîner ou de fine-tuner un plus petit modèle, il faudrait donc, idéalement, vérifier si son maître est énergivore ou non. Il convient de prendre en compte le bilan carbone du LLM étalon, de son petit frère distillé et des futures étapes de fine-tuning.

D’autant que la distillation réclame – encore – de grandes quantités de données pour obtenir des performances équivalentes à des modèles de très grandes tailles, comme LLama 3 70B ou GPT-4. D’ailleurs, comme les chercheurs se sont aperçus que l’usage d’un plus gros volume de données de meilleure qualité est bénéfique en matière de performances, les entraînements sont plus longs, et donc plus consommateurs.

Llama 3-8b au moins douze fois plus émetteur que Llama 2-7B

Ainsi, le bilan du successeur de Llama 3 est pire encore. À date, l’entraînement de la collection LLama 3 a émis 2 290 tonnes équivalent carbone, soit une hausse de 324,86 % et l’équivalent des émissions de 249 français par an. Cette fois-ci, il faudrait près de huit hectares de plantation arboricole pour « effacer » cette dette carbone. Llama 3-8B, à lui seul a émis 390 tonnes équivalent carbone au cours de son entraînement, soit 100 de plus que pour l’ensemble de la collection Llama 2 et 12 fois plus que Llama 2-7B.

La deuxième technique, moins énergivore, consiste à entraîner directement un modèle de petite taille. C’est ce que le collectif de chercheurs Eleuther AI a mis en place, lors de l’entraînement de GPT-NeoX-20B (20 milliards de paramètres), à l’aide de douze serveurs équipés chacun de huit GPU Nvidia A100 40 Go SXM4. Eleuther AI estime que l’entraînement de ce modèle a émis 31,73 tonnes équivalent CO2, soit l’équivalent des émissions de Llama 2-7B, « des émissions annuelles d’un Américain moyen ou de 35 vols aller-retour New York – San Francisco ».

Le ratio performance-coût-consommation jouait jusqu’alors en la faveur de la première option, la distillation. Les petits modèles qui en découlent sont de plus en plus performants et leur fine-tuning coûte de moins en moins cher.

Mais des projets comme Phi-3 de Microsoft démontrent qu’une combinaison des deux approches est bénéfique techniquement. Ici, c’est l’architecture de LLama 2 qui est reprise puis modifiée pour entraîner des modèles de 4, 7, et 14 milliards de paramètres. Ici, les modèles ont réclamé 7 jours d’entraînement chacun (environ 504 heures de calcul au total) sur un cluster de 512 GPU Nvidia H100 ou 64 DGX H100 consommant chacun en pic environ 10 kWh.

Beaucoup de données, peu de paramètres et une architecture existante, c’est également le parti pris par les responsables du projet français CroissantLLM, qui lui a réclamé 100 000 heures de calcul avec un cluster de 30 nœuds (240 GPU Nvidia A100), mais des émissions comprises entre 2,8 et 3,36 tonnes équivalent carbone.

Dans son AI Index Report 2024, l’Université de Stanford observe que d’autres facteurs sont à prendre en compte. Les modèles plus petits, bien que moins émetteurs à l’entraînement « peuvent avoir des émissions élevées suivant l’efficience du réseau d’énergie utilisé ».  

Les autres facteurs à prendre en compte

De même, l’explosion du bilan carbone de Llama 3-8B par rapport à LLama 2-7B est largement due au changement d’infrastructure de Meta. Quand un GPU Nvidia A100 consomme 400 Watts, un H100 tire 700 watts. Petit ou grand modèle, cela impacte inévitablement son bilan carbone.

Il faudra toutefois attendre avant de constater si l’effet combiné d’un plus grand volume de données et la généralisation de GPU plus gourmands affecte le bilan carbone des petits modèles.

Au regard des données concernant 1 417 modèles disponibles depuis Hugging Face, entre novembre 2021 et février 2023, « contrairement aux attentes », des chercheurs de l’Université polytechnique de Catalogne ont conclu à une « baisse statistique significative » des émissions des modèles disponibles sur la plateforme ; en partie grâce à une meilleure prise de conscience des pratiques de reporting, mais aussi « potentiellement à des méthodes d’entraînement plus efficaces ».

De fait, si la tendance est à l’inflation du volume, d’autres chercheurs tentent de diminuer la quantité de données nécessaires au processus de transfert de l’apprentissage. C’est notamment le cas des équipes de Google ayant imaginé la technique de la distillation « pas à pas », mise au point à l’aide d’une approche de prompting exploitant les capacités de compréhension de la logique des modèles afin d’expliquer les données générées. Cette approche permet de réduire jusqu’à 75 % le volume de données nécessaire à l’entraînement d’un petit LLM. Résultat, un modèle de 770 millions de paramètres peut égaler un modèle de 540 milliards de paramètres, tel PaLM-540B dans l’accomplissement de certaines tâches.

L’empreinte carbone de l’inférence demeure méconnue

Quid de l’inférence ? Outre une plus faible empreinte carbone à l’entraînement, les petits modèles réclament moins de ressources de calcul lors de leur utilisation. Dès lors, ils sont moins coûteux à exécuter et a priori moins gourmands en énergie. Une affirmation à pondérer, estiment les auteurs de l’AI Index Report 2024 de l'Université Stanford.

« Bien que les émissions de l’inférence par requête soient relativement faibles, l’impact total peut dépasser celui de l’entraînement lorsque les modèles sont interrogés des milliers, voire des millions de fois par jour ».

D’autant qu’il faut prendre en compte le type de tâches à exécuter, selon des chercheurs d’Hugging Face et de l’Allen Institute.

Les tâches textuelles sont généralement plus économes en énergie que les tâches de traitement d’images, conclut-il. « La classification d’images consomme 0,0068 kWh pour 1 000 inférences, tandis que la génération d’images en consomme 1,35 kWh. En comparaison, la génération de texte consomme 0,042 kWh, contre 0,0023 kWh pour la classification de texte. Charger un smartphone moyen consomme 0,012 kWh, donc la génération de texte la plus efficace utilise 16 % de cette énergie pour 1 000 inférences, tandis que la génération d’images la moins efficace utilise autant d’énergie que 950 charges de smartphone », constatent-ils.

Enfin, et malgré l’existence de ces travaux, l’AI Index Report de Stanford pointe un manque de transparence des fournisseurs de LLM, dont Google, Anthropic, OpenAI, et Mistral AI, ainsi qu’une connaissance scientifique encore limitée concernant les émissions liées à l’inférence des modèles.

Pour approfondir sur IA Responsable, IA durable, explicabilité, cadre réglementaire