sidorovstock - stock.adobe.com

Comment Engie industrialise ses projets de data science

L’énergéticien Engie fait le pari d’une architecture lakehouse pour fédérer les données de ses différents systèmes, les analyser et accélérer la production de modèles de machine learning. Les gains déjà obtenus l’ont convaincu de poursuivre sur cette voie.

Les fournisseurs d’énergie doivent faire face à une demande croissante. Depuis 2020, celle-ci aurait augmenté de plus de 60 %. Outre le réveil économique des pays émergents et en développements, une technologie très populaire s’avère particulièrement gourmande. L’IA est promise à consommer 5 % de l’énergie produite en Europe, et 4 % dans le monde entier en 2030. Dans un même temps, trois quarts de l’empreinte carbone planétaire proviendrait de la consommation d’énergie, majoritairement des sources fossiles.

Parmi ces fournisseurs, Engie a pris l’engagement d’atteindre le statut d’entreprise Net Zero Carbon en 2045. Quelques éléments le mettent en bonne voie. Engie a déjà pris la tête de la vente de contrats PPA, ceux-là même achetés par les fournisseurs de cloud afin de justifier leur bilan carbone verdissant. En France, le groupe se présente comme le premier fournisseur d’énergies solaires et éoliennes. « 80 % de nos investissements vont dans les énergies renouvelables », assure Biljana Kaitovic, directrice générale du numérique et de l’IT chez Engie, lors du Data & AI World Tour Paris, le 20 novembre. « À la première moitié de l’année 2024, 52 % de l’électricité consommée en Union européenne provenait de sources d’énergie renouvelable ». Mais cela ne fait pas tout.

« Nous croyons que les données, l’IA et le numérique sont des leviers importants pour nous aider à relever ces défis », déclare-t-elle. « Nous l’appliquons à l’excellence opérationnelle, la recherche de nouveaux modèles économiques, l’expérience client et l’expérience employés, etc. ».

Uniformiser l’accès à un patrimoine de données disparates

Or, l’autre défi, c’est qu’une partie des 3 800 membres internes de la DSI d’Engie doit gérer de nombreux systèmes d’information, parfois vieillissants. « Engie est une entreprise complexe et nous avons un très fort héritage. Imaginez, nous étions là à la construction du canal de Suez il y a 150 ans », poursuit-elle.

Aussi, Engie est présent dans 31 pays, contre 70 auparavant. En conséquence, la multiplicité des sources de données bloquait certains projets d’analyse de données et de data science au service des 97 300 collaborateurs du groupe.

De fait, à travers ses activités autour des énergies renouvelables, thermiques, ses fermes de batteries, la gestion de réseaux électriques et d’énergies, la mobilité électrique, et ses solutions pour les clients BtoC et BtoB, Engie dispose plusieurs pétaoctets de données. « Autant d’activités nécessitent beaucoup de processus gérés à travers un portfolio applicatif large et varié », explique Biljana Kaitovic. « Nous avons différents responsables de données par activité et par pays. […] Nous devons servir les besoins variés des métiers dans les différents pays et les différentes unités ».

La variété des données est également un sujet de taille. Les données des installations, des clients, les éléments comptables, achats, RH ont longtemps été gérés à partir de systèmes distincts, parfois développés à façon. Selon, la directrice du numérique, l’intégration entre les systèmes était plutôt limitée. Il faut ajouter à cela la multiplicité des sources de données tierces, notamment pour récupérer les informations du marché et météorologiques.

L’entreprise a débuté de longue date la migration de certains actifs IT vers le cloud. « Notre dépôt principal se nomme “Common Data Hub” ou CDH. Il s’agit d’un lac de données hébergé sur le cloud Azure. Il contient plus de 3 pétaoctets de données, mais ce n’est pas le seul », précise la directrice du numérique chez Engie.

Différentes plateformes ont été bâties sur Azure et AWS (Amazon S3, Kinesis, MongoDB, PostgreSQL, etc.), et d’autres clouds.  

« Nous avons encore des systèmes on premise et nous aurons à les conserver pour répondre aux besoins des activités et aux nécessités réglementaires. »
Biljana KaitovicDirectrice générale du numérique et de l’IT, Engie

Cependant, les réglementations appliquées dans certains pays et à certaines activités ne lui permettent pas de migrer l’entièreté de ses données.

« Nous avons encore des systèmes on premise et nous aurons à les conserver pour répondre aux besoins des activités et aux nécessités réglementaires. Par exemple, nous gérons une activité nucléaire en Belgique », avance-t-elle.

Afin d’accéder aux données de l’ensemble des systèmes présentés plus haut, Engie a donc fait le choix d’une architecture lakehouse distribuée.

« Notre architecture Lakehouse s’étale sur plusieurs clouds, représente les données en provenance de plusieurs systèmes, de bases de données et permet à nos collaborateurs d’accéder à différents outils analytiques sans la nécessité de répliquer les données ou la pile technologique », affirme Biljana Kaitovic.

Celle-ci peut s’intégrer aux SI de l’entreprise, dont l’ERP SAP, le CRM Salesforce ou les solutions Aveva. Cela permettrait « de former un seul écosystème ». « Cette approche en écosystème est importante, car les données que nous utilisons en provenance de plusieurs sources ont besoin d’être mises en contexte et cela demande souvent de briser les silos ».

Ce lakehouse transverse s’appuie sur Databricks et propulse déjà plusieurs cas d’usage. Le groupe a d’abord choisi cette plateforme pour sa capacité à gérer des flux de données en mode ETL/ELT (via Apache Spark) – des intégrations qui devenaient coûteuses avec les précédents outils – et pour rationaliser la production de tableaux de bord sur Power BI, entre autres.

Entre 2021 et 2022, des solutions concurrentes n’offraient pas forcément directement cette gestion des flux d’intégration ni les mêmes capacités en matière de déploiements d’algorithmes.

Il y avait directement l’intention de suivre la feuille de route de l’éditeur. L’objectif : éviter de produire des applications spécifiques à la durée de vie éphémère. En 2022, Engie rapportait avoir réduit de 10 à six semaines le temps de production de ces tableaux de bord, et a observé un gain d’optimisation de 27 % de ces flux de données – en sus d’avoir diminué le coût d’exploitation de nouvelles instances de gestion de données.

Depuis, il y a eu de nouveaux usages, dont le traitement des données en provenance des installations productrices d’énergie renouvelable. « À la mi-2024, nous avions les installations pour produire 42 gigawatts d’énergies renouvelables, l’équivalent de 15 % de la consommation de la France ».

Une plateforme « d’hypervision » a été développée sur Azure pour intégrer et analyser plus de 180 To de données et plus de 2 000 milliards de points de données. Ces données proviennent de différentes sources, dont le Data Hub, mais aussi d’équipements installés par des fournisseurs sur plusieurs centaines de sites dans le monde, d’autres sont issues de systèmes opérationnels ou encore des plateformes météorologiques tiers.

Maintenance prédictive et IA générative

Databricks est par exemple utilisé pour ingérer, nettoyer et standardiser les données de manière semi-automatique. « Databricks aide également nos ingénieurs à créer les bons algorithmes de machine learning et les modèles analytiques pour mieux gérer nos actifs ».

« Il s’agit d’arrêter les équipements au bon moment, suivant leur niveau de performance, la demande, et les prix pratiqués sur le marché. »
Biljana KaitovicDirectrice générale du numérique et de l’IT, Engie

Ainsi les gestionnaires des actifs doivent faire en sorte que les équipements produisent de l’énergie verte en quantité suffisante afin de l’intégrer au bon moment sur le réseau. Outre le fait que les data scientists aident à planifier cette intégration, ils développent également des modèles de maintenance prédictive. « Il s’agit d’arrêter les équipements au bon moment, suivant leur niveau de performance, la demande, et les prix pratiqués sur le marché », résume Biljana Kaitovic. « Par exemple, la maintenance d’une éolienne aura lieu lors d’une période creuse, sans vent et avant que l’équipement ne tombe véritablement en panne ».

Le framework MLFlow, embarqué dans la plateforme, est utilisé pour comparer les résultats de différentes variantes d’un même modèle.

Les ingénieurs de données d’Engie exploitent déjà l’IA générative. Il ne s’agit pas de créer des images ou d’écrire des poèmes, mais d’appliquer les bonnes conventions de nommage aux données en provenance de capteurs de marques et de typologies différentes. « Le nommage est habituellement une tâche manuelle peu valorisante, mais l’IA générative peut nous aider à l’accélérer », assure la directrice des projets IT.

Gérer finement le stockage d’énergies renouvelables

Et c’est d’autant plus important qu’Engie construit ou ajoute quatre gigawatts d’énergies renouvelables dans son système. « À partir de 2026, nous ajouterons 6 GW par an », précise-t-elle.

« Nous avons besoin de connaître la santé de la batterie au niveau de la cellule. Ensuite, nous avons besoin de prédire la production des énergies renouvelables afin de gérer le stockage ».
Biljana KaitovicDirectrice générale du numérique et de l’IT, Engie

Cela ne règle pas le problème de l’intermittence lié à la fluctuation des énergies solaires et éoliennes. La plupart des fournisseurs et distributeurs gèrent l’équilibre de charge du réseau en exploitant des centrales thermiques, à gaz et à charbon, mais doivent rapidement vendre l’énergie verte produite ou la perdre. Engie a fait le pari des batteries afin de stocker l’électricité en excès « quand elle n’est pas chère et la redistribuer au besoin ».

Pour l’instant, le fournisseur dispose d’une capacité de stockage de 2,3 GW, dont 1,8 GW aux États-Unis. Il espère installer l’équivalent de 10 GW de capacités de stockage en 2030.

Ici, Engie récupère les données liées aux températures des batteries, aux taux d’humidité des zones de stockage et d’autres informations techniques. « Nous avons besoin de connaître la santé de la batterie au niveau de la cellule », résume Biljana Kaitovic. « Ensuite, nous avons besoin de prédire la production des énergies renouvelables afin de gérer le stockage ».

Aujourd’hui, ces opérations réclament de récupérer 400 points de données toutes les 5 à 10 secondes par site de production, soit environ 300 000 points de données ingérés dans le système de gestion des batteries.

Quinze millions d’euros d’économie

Là encore, les data scientists doivent identifier la quantité d’énergie qui peut être stockée et extraite des batteries. Des modèles financiers ont été entraînés afin de prédire le meilleur moment de vente de cette production stockée temporairement. « Avec l’analytique avancée et l’IA, nous prévoyons d’améliorer la disponibilité de notre flotte de 5 à 10 % », avance Biljana Kaitovic.

Engie ne prédit pas seulement la production d’énergie, mais également la consommation. Ici, il s’agit de traiter des données en provenance de CDH, ainsi que d’autres lacs sur Azure et AWS. « C’est là que Databricks nous aide à étudier des effets spécifiques et de définir beaucoup plus précisément des archétypes de clients ».

Cela permet ensuite aux responsables commerciaux B2B de créer des offres adaptées aux différents segments de clientèles en quelques minutes. « Avant, cela prenait des semaines ». Ces analyses s’appuient parfois sur des historiques de plus de dix ans de consommation.

Par ailleurs, Engie obtient des estimations plus précises des factures mensuelles et annuelles, ce qui éviterait à ses clients B2B et B2C de verser de grosses sommes à la fin de l’année ou à l’énergéticien de les rembourser s’ils ont moins consommé que prévu.

Engie gère une activité par essence fluctuante et soumise aux aléas du marché. D’où la nécessité d’accélérer les développements.

« Le Time to market de nos modèles ML a baissé de 90 %. […] Les progrès en matière de data science se traduisent en une plus grande précision et une plus grande précision permet d’avoir de bien meilleures prévisions ainsi que des réductions du coût de la gestion d’énergie », résume Biljana Kaitovic. « Notre programme de forecasting nous a permis d’économiser environ 15 millions d’euros ».

Autant de gains qui poussent l’énergéticien à poursuivre ses efforts en matière de data science.

Pour approfondir sur Data Sciences, Machine Learning, Deep Learning, LLM