Big Data et prédictif : Ecometering et la SNCF mettent datascience.net au défi

Les défis se succèdent en ce début d’été sur la plate-forme datascience.net. Lancée il y a tout juste quelques mois à l'initiative de la société Bluestone et de quelques écoles, la plate-forme vise à promouvoir les data-scientists français et propose notamment aux entreprises de venir tester leurs idées en matière d’exploitation, de traitement ou de visualisation Big Data.

Les défis se succèdent en ce début d’été sur la plate-forme datascience.net. Lancée il y a tout juste quelques mois à l'initiative de la société Bluestone et de quelques écoles, la plate-forme vise à promouvoir les data-scientists français et propose notamment aux entreprises de venir tester leurs idées en matière d’exploitation, de traitement ou de visualisation Big Data.

Résultat : de grands-comptes se sont déjà très sérieusement pris au jeu en confiant à la communauté datascience.net des chantiers déterminants pour l’avenir.

Ecometering, filiale du Groupe GDF Suez, attend de nouveaux modèles pour estimer la consommation électrique de ses clients professionnels à 10 jours, avec un pas de 10 minutes. De son côté, la SNCF mise sur le prédictif pour optimiser l'aménagement des services utilisés dans les gares par plus de 3 millions de voyageurs.

Le groupe de transport ferroviaire mettra durant tout l’été ses données Open Data à disposition des Data Scientists, afin qu'ils optimisent les modèles de prévision de fréquentation de ses gares en Ile-de-France. En Ile-de-France, la SNCF transporte quotidiennement plus de 3 millions de voyageurs dans ses trains Transilien. Connaître la fréquentation des gares est un enjeu essentiel. Les déterminants de cette fréquentation sont multiples et complexes : liés à la fois à l’offre en place mais également à l’environnement proche de la gare.

Le défi consiste donc à construire un modèle permettant d’estimer efficacement le nombre de voyageurs montant par gare pour un jour de semaine (sous forme d'une fourchette de valeurs) à partir de données caractérisant la gare d’un point de vue SNCF (nombre de lignes, nombre de trains par jour, services en gare, etc.), mais également externe (caractérisques socio-démographiques de la ville, présence de transports urbains, etc.). Le Big Data apparait comme une problématique déterminante pour le développement économique du groupe selon Patrice Aknin, directeur scientifique de la direction Innovation & Recherche SNCF, qui explique vouloir « à l’avenir poursuivre et renforcer ces interactions avec la communauté des data scientifiques ».

Chez Ecometering, qui conçoit, développe et exploite des solutions innovantes, clé en main pour la maîtrise et le pilotage intelligent de l’énergie, il s’agit également de se préoccuper du client final. La filiale du Groupe GDF Suez attend des modèles de calcul innovants, permettant d’estimer la consommation électrique de sites industriels ou tertiaires, à partir de leurs historiques de consommations et des données de météo.Pour optimiser la consommation énergétique de ses clients en anticipant, annulant ou reportant tout ou partie de leur consommation électrique, l’entreprise est confrontée à la nécessité de pouvoir prévoir, pour chaque site de son portefeuille, la consommation d’électricité de J+1 à J+10 à un pas temporel très fin (10 minutes).

Le défi consiste donc à la conception d'un algorithme de prévision, permettant de prendre en compte la spécificité de chaque site tout en garantissant une facilité de déploiement maximale dans des conditions opérationnelles (rapidité de calibration, adaptabilité, etc.). L’objectif est d’obtenir des prévisions les plus précises possibles en minimisant les délais de mise en œuvre.

Pour Loïc Le Pellec, responsable du Data Analytics au sein d’Ecometering, « La diversité des profils des contributeurs à la plateforme est un gage d’obtention de solutions en rupture et on le souhaite, les plus innovantes possibles. Ce défi est également un excellent support de communication interne sur les sujets autour de l’analyse des données ».

Les Data Scientists participants membres de datascience.net ont jusqu’à fin septembre pour proposer leurs solutions.

Pour approfondir sur Big Data et Data lake