Comment rendre l’IA plus verte et plus efficace
L’intelligence artificielle promet de combattre les effets néfastes du changement climatique, mais dans le même temps, elle est vouée à en aggraver les conséquences en raison de sa consommation excessive d’énergie. Comment rendre l’IA plus verte ?
Wirth Research, une société d’ingénierie spécialisée dans la mécanique des fluides numérique, se préoccupe de plus en plus des questions de développement durable.
Elle orientait initialement ses activités sur la conception de voitures de course. Elle proposait à ses clients de remplacer leurs essais dans des souffleries aérodynamiques très coûteuses par des modélisations informatisées. Mais au cours des dernières années, elle a conçu des équipements destinés à diminuer la traînée aérodynamique des camions. Wirth Research a aussi mis au point un appareil permettant de limiter la quantité d’air froid qui s’échappe des réfrigérateurs ouverts des supermarchés, réduisant d’un quart leur consommation énergétique.
Cette société basée à Bicester au Royaume-Uni souhaitait également réduire la quantité d’énergie consommée par son système de modélisation informatisée. Pour calculer l’aérodynamisme des voitures, celui-ci simule environ un demi-milliard de minuscules cellules d’air. L’entreprise est déjà parvenue à ajuster la résolution des cellules dans chaque modèle, en utilisant un maillage submillimétrique plus fin à proximité des arêtes vives.
Puis, lors de la pandémie, réalisant que son personnel travaillait efficacement à domicile, Wirth a migré ses charges de travail vers un datacenter alimenté par de l’énergie renouvelable. Situé en Islande, il est géré par Verne Global. La nouvelle appliance a permis de réduire des trois quarts l’énergie nécessaire, et l’électricité consommée est neutre en carbone.
Rob Rowsell, directeur du service d’ingénierie, estime qu’en additionnant le coût total des nouveaux équipements étalé sur plusieurs années et le coût d’utilisation des installations et de la connectivité islandaises, la facture énergétique reste inférieure à celle que l’entreprise payait au Royaume-Uni. Par-dessus le marché, Wirth Research prévoit de continuer à pratiquer le travail hybride et a donc emménagé dans des bureaux plus petits situés dans un bâtiment écoresponsable.
L’objectif de l’entreprise est de rendre ses processus informatiques encore plus « verts ». Elle est déjà capable de mettre fin aux itérations des modèles virtuels une fois qu’ils se stabilisent, plutôt que de les exécuter un nombre de fois défini. Mais elle souhaiterait pouvoir utiliser l’intelligence artificielle (IA) entraînée sur les précédents travaux afin d’exécuter un faible nombre d’itérations, pour prédire une version stable d’un modèle dont l’obtention demanderait en temps normal nettement plus de temps.
La prédiction n’aurait pas besoin d’être parfaitement exacte, étant donné que l’entreprise vérifierait ensuite la stabilité du modèle en exécutant quelques itérations supplémentaires. « Nous devrions pouvoir réaliser 15 ou 20 itérations au lieu de 100 », révèle Rob Rowsell.
Peter van der Putten, directeur AI Lab chez l’éditeur de logiciels Pegasystems, basé dans le Massachusetts, et professeur adjoint à l’université de Leiden aux Pays-Bas, assure que le potentiel de l’IA pour lutter contre le changement climatique est considérable.
Cependant, depuis quelques années, cette technologie s’appuie de plus en plus sur des modèles de deep learning, dont l’exécution exige une quantité considérable de puissance de calcul et d’électricité. C’est par exemple le cas du modèle de langage GPT-3 d’OpenAI, entraîné sur près de 500 milliards de mots et utilisant 175 milliards de paramètres.
Peter van der Putten Directeur AI Lab, Pegasystems
« Jusque récemment, il était bien vu de sortir de nouveaux modèles, tous plus gros que les précédents », se désole Peter van der Putten. Mais les considérations environnementales mettent en lumière la nécessité de rendre l’IA plus efficiente, à plus forte raison dans un contexte économique où les coûts de l’électricité sont en forte hausse. « “Small is beautiful” : cela se vérifie d’un point de vue aussi bien financier qu’écologique. »
D’ailleurs, des modèles plus efficaces produiront de meilleurs résultats. En 2000, Peter van der Putten a participé à un défi dans lequel les participants devaient tenter de pronostiquer quels clients d’une compagnie d’assurance seraient intéressés par la souscription d’une police pour caravane.
Des données bruitées réelles avaient été introduites, susceptibles de faire échouer les modèles complexes. « On peut commencer à voir des tendances là où il n’y en a pas, autrement dit à subir le phénomène de surapprentissage », explique-t-il. Ce problème se produit lorsque le modèle de machine learning n’arrive pas à fournir de prédictions fiables au moment de traiter des données inconnues. L’on dit qu’il n’atteint pas le stade de la généralisation. Les modèles plus simples sont également performants lorsque les relations sont évidentes ou que les points de données ne sont pas trop nombreux.
Il peut aussi être difficile et coûteux d’étudier des modèles volumineux entraînés sur de vastes quantités de données. Pour les situations évolutives, comme l’attribution de tâches à un groupe d’employés enregistrant des départs et des arrivées fréquents, il peut être avantageux de recourir à des modèles « d’apprentissage en ligne » plus légers, conçu pour s’adapter rapidement en fonction des nouvelles informations.
Peter van der Putten précise qu’en plus de revenir moins chers et d’avoir un impact moindre sur l’environnement, ces modèles sont également plus faciles à interpréter. Il est en outre possible d’exploiter des algorithmes de machine learning classiques, comme les machines à vecteurs de support (SVM), qui servent à classifier les éléments et sont généralement plus légères, étant donné qu’elles ont été développées à une époque où la puissance de calcul était bien moindre.
Peter van der Putten rapporte que dès la fin des années 1980 et le début des années 1990, les spécialistes de l’IA se sont divisés en plusieurs clans en fonction de la technique privilégiée. Cependant, les praticiens ont vite compris l’intérêt de recourir à différentes méthodes ou de les combiner, selon la situation. « Il serait sensé de revenir à une approche plus multidisciplinaire », confie-t-il, étant donné que les solutions alternatives au deep learning basé sur le Big Data ont tendance à consommer beaucoup moins de puissance de calcul.
Il faut bien commencer quelque part
L’une des solutions consiste à donner un point ou une structure de départ aux modèles d’IA, explique Jon Crowcroft, professeur de systèmes de communication à l’université de Cambridge et fondateur d’iKVA, une société spécialisée dans l’exploration de données basée à Cambridge.
À l’origine, les modèles de langage se composaient de règles structurelles au lieu de s’appuyer sur l’analyse de milliards de mots. De la même manière, les modèles scientifiques gagneraient à intégrer les principes appropriés par voie de programmation. Cela s’applique en particulier à l’analyse du langage, des vidéos ou des images, dont le volume de données est généralement très élevé.
Par exemple, un système d’IA pourrait apprendre à identifier les protéines Spike des coronavirus plus efficacement si la forme du spicule lui était présentée. « Plutôt que de recueillir une quantité astronomique d’images et de les étiqueter une à une, vous travaillez avec un modèle de données réelles », commente Jon Crowcroft.
Il ajoute que cette approche est appropriée lorsque chaque résultat est susceptible d’avoir des conséquences considérables, comme c’est le cas avec les images médicales. Des spécialistes devront parfois fournir le contenu initial, ce qui ne constitue pas nécessairement un inconvénient en soi si ce sont des experts qui configurent le modèle. Pour un usage universitaire, ce sera d’ailleurs probablement le cas. Cette contribution humaine initiale permet de réduire considérablement la puissance de calcul requise pour développer un modèle d’IA, et le rend en outre plus facile à expliquer.
Elle peut également contribuer à changer le lieu d’exécution de l’IA ainsi que son mode de fonctionnement. Ainsi, un modèle de machine learning fédéré pourrait impliquer des compteurs réellement intelligents qui analysent la consommation d’électricité d’un citoyen et envoient occasionnellement une mise à jour du modèle obtenu au fournisseur, plutôt que d’envoyer les données de consommation plusieurs fois par heure, comme le font les compteurs actuels.
« Le fournisseur d’électricité a besoin d’un modèle de consommation de tous les usagers pour une période donnée, non des habitudes de consommation de chaque consommateur en temps quasi réel », précise Jon Crowcroft.
Si l’IA était exécutée localement, la quantité de données envoyées sur les réseaux serait bien moindre. Cela se traduirait par une économie énergétique et financière, et procurerait une plus grande confidentialité puisque les données de consommation ne quitteraient pas la propriété. « On peut inverser la logique de fonctionnement », ajoute Jon Crowcroft. Ce type d’apprentissage « en périphérie » conviendrait bien aux moniteurs personnels de santé, car la confidentialité est alors essentielle.
Réduire l’énergie consommée par l’IA
Lorsqu’un modèle de deep learning centralisé est nécessaire, il existe des moyens de le rendre plus efficient. TurinTech, entreprise basée à Londres et spécialisée dans l’optimisation de code, affirme pouvoir réduire de 40 % l’énergie requise pour exécuter un modèle d’IA. Si un degré d’ajustement légèrement moins précis est acceptable, les économies potentielles sont encore plus élevées, fait valoir le PDG Leslie Kanthan.
Tout comme avec le surapprentissage, un modèle entraîné sur d’anciennes données financières ne pourra pas prédire leur comportement futur. En revanche, un modèle plus simple proposera des prédictions correctes pour un coût de développement bien moindre. Et il sera beaucoup plus rapide à configurer et à modifier, ce qui n’est pas négligeable dans le domaine de la finance.
L’optimiseur de TurinTech combine le deep learning avec des algorithmes génétiques ou évolutionnistes pour adapter un modèle en fonction de nouvelles informations, ce qui lui évite d’avoir à le générer de nouveau entièrement. « Il tente de plier le modèle de deep learning pour forcer l’ajustement », précise Leslie Kanthan.
Au dire de Harvey Lewis, partenaire associé d’Ernst and Young UK et data scientist en chef du service Fiscalité du cabinet, les algorithmes évolutionnistes et les méthodes statistiques bayésiennes s’avèrent particulièrement utiles pour rendre le deep learning plus efficient. Malheureusement, c’est souvent la méthode forte qui est employée lorsqu’il s’agit d’optimiser les paramètres d’un modèle : analyser une multitude de combinaisons pour voir ce qui fonctionne, ce qui, avec 2 milliards de paramètres, « consomme énormément de puissance de calcul ». Harvey Lewis soutient qu’il est possible de réduire le coût de cette activité en recourant à des équipements spécialisés.
Les processeurs graphiques, conçus pour effectuer des calculs rapidement en vue de générer des images, ont un fonctionnement sensiblement différemment des cartes graphiques.
Les circuits préfigurés programmables (FPGA, Field Programmable Gate Array), configurables par l’utilisateur, et les unités de traitement de tenseur (TPU, Tensor Processing Unit), conçus par Google spécifiquement pour l’IA, sont encore plus efficients, et l’informatique quantique promet d’aller encore plus loin.
Harvey Lewis prévient qu’il serait judicieux de se demander avant tout si une IA complexe est réellement nécessaire. Les modèles de deep learning sont tout à fait capables d’analyser de gros volumes de données cohérentes. « Ils sont très performants lorsqu’il s’agit d’effectuer les tâches précises pour lesquelles ils ont été entraînés », poursuit-il. Mais il existe très souvent des solutions plus simples et moins coûteuses, dont l’impact environnemental est bien moindre.
Le data scientist cherche toujours un point de référence : le modèle d’IA le plus simple capable de produire une réponse raisonnable. « À partir de là, il suffit de déterminer s’il fait l’affaire ou s’il est nécessaire de le développer », enchaîne-t-il. Non seulement ces modèles plus simples, tels que les arbres décisionnels, sont moins coûteux, moins gourmands en énergie et émettent moins de gaz à effet de serre, mais ils sont également plus faciles à comprendre et à expliquer. Il s’agit là d’un atout majeur dans des domaines tels que la fiscalité, qui doit permettre les contrôles et les audits.
Il ajoute qu’il est souvent avantageux de coupler intelligence humaine et intelligence artificielle. On peut ainsi effectuer des contrôles manuels pour les problèmes de qualité élémentaires, par exemple pour vérifier qu’un champ de date est configuré comme tel, avant de lancer les tâches automatiques.
Il est souvent plus efficace de répartir les processus entre les machines et les humains : le logiciel sert à trier les gros volumes, par exemple en repérant les images contenant des chiens, puis des personnes sont chargées de classer les images par race, ce qui demande davantage de discernement. « En introduisant un cerveau humain dans la boucle, vous gagnerez en performance et en écoresponsabilité », conclut Harvey Lewis.