Sergey Nivens - Fotolia
Data mining et simulation : les combiner optimise les processus complexes
L'exploration de données, ou Data Mining, et la simulation peuvent être combinées pour mieux modéliser et améliorer les processus industriels, le développement urbain et d'autres systèmes complexes.
Nous évoluons dans un univers de plus en plus interconnecté, non seulement en raison du nombre d'appareils numériques, mais aussi parce que nos actions ont potentiellement des dizaines, voire des centaines de conséquences qui s'enchaînent jusqu'à aboutir à des résultats imprévisibles. Toutefois, l'application d'un modèle informatique à ces actions permet de prédire des conséquences probables.
« Diagnostics de processus »
Depuis quelques années, le data mining est un mot à la mode. C'est également une appellation trompeuse, et le terme est assez souvent mal employé. Alan Mason, directeur général de la société de conseil AJM Consulting, préfère parler de « diagnostics de processus », terme techniquement plus précis d'après lui.
Plus que l'extraction de données évoquée par le terme anglais, le data mining est le processus qui consiste à analyser des ensembles de données volumineux et à comprendre les schémas récurrents. Comprendre les tendances passées permet d'obtenir un éclairage pour prendre des décisions dans des situations actuelles.
Le data mining est souvent appliqué dans les industries (chimiques, pharmaceutiques, nucléaires, etc.) où un changement mineur en début de processus peut, au fil d'une série d'événements interconnectés, avoir des répercussions importantes non prévues au départ.
Le travail d'AJM Consulting sur le site de retraitement et de déclassement de Sellafield est un exemple d'application. AJM a utilisé des diagnostics de processus pour étudier les données en temps réel et l'historique opérationnel du processus de refroidissement de l'usine de vitrification des déchets, où les déchets fortement radioactifs, toxiques et corrosifs sont confinés dans du verre borosilicaté résistant à la corrosion pour un stockage à long terme. Cette étude a permis à AJM d'identifier les événements spécifiques du site qui accélèrent la vitesse de corrosion des serpentins de refroidissement.
En poussant un peu l'étude, AJM a pu prédire avec assurance à quel moment les serpentins de refroidissement tomberaient en panne. En effet, si l'usine de vitrification des déchets peut supporter la panne de quelques serpentins, une panne générale serait catastrophique. AJM a donc pu atténuer ce risque inacceptable et permettre à son client de réaliser des économies en limitant les processus corrosifs et en évitant les arrêts de production de l'usine.
Data mining et simulation
« C'était un peu comme une simulation, mais qui reposait sur des diagnostics de processus », explique Alan Mason. « Le système d'avertissement prédictif qui en a découlé était bien plus fiable que le système en place. »
AJM Consulting a utilisé MS2, son propre logiciel de data mining disponible sur le marché. Ce programme, développé avec des aides européennes conjointement par AJM et l'Université de Newcastle, est appliqué à différentes industries de transformation depuis plus de 15 ans.
De son côté, la simulation permet l'analyse d'événements statistiquement probables. Avec l'étude des données et l'extrapolation des relations entre chaque variable, les entreprises peuvent modéliser non seulement les événements en cours, mais aussi les futurs scénarios possibles.
Au premier abord, le data mining et la simulation peuvent sembler aboutir aux mêmes résultats en utilisant des techniques similaires. Pourtant, quelques différences subtiles les séparent.
L'exploration de données détermine les schémas historiques des événements passés et extrapole le résultat futur le plus probable. A l'inverse, les simulations déterminent les résultats les plus probables d'après la relation qui existe entre les différentes variables extrapolées à partir des données.
Utilisation des données dans le génie civil
Le data mining et la simulation exigent tous deux des jeux de données pour créer un modèle fiable. La précision du modèle est proportionnelle au volume et à la fiabilité de ces données.
Toutefois, Leonardo Reyes, data-scientist chez Profusion, avance l'argument suivant pour la simulation : « Si vous comprenez comment le modèle fonctionne vraiment – si vous avez pu reconnaître les relations qu'il entretient –, alors vous n'avez besoin que de ces informations. »
Dans l'idéal, pour parvenir à cette compréhension, le data mining doit s'appliquer à identifier les relations entre les différentes variables. A cet égard, « on peut considérer que le data mining est l'étape qui précède la véritable compréhension du fonctionnement de ces données ».
Les simulations peuvent prédire ce qui va sans doute se produire. C'est pour cela qu'elles sont couramment utilisées dans l'ingénierie, où les conceptions proposées sont modélisées de façon à fournir une solution appropriée répondant aux objectifs de sécurité et de fiabilité. Les simulations permettent également d'éviter des conséquences imprévues.
Modélisation du design urbain
Prenons l'exemple du logiciel de conception Micro Drainage, utilisé dans le génie civil pour simuler des événements pluvieux dans les réseaux de drainage souterrain.
Micro Drainage modélise la dynamique des fluides de l'eau au moyen d'un ensemble de règles établies, afin que la conception réponde aux normes nationales. Le programme permet aux utilisateurs de modéliser des événements pluvieux extrêmes pour déterminer si les systèmes de drainage peuvent supporter des pluies excessives.
A plus grande échelle, il est possible de modéliser des villes pour étudier des propositions de design urbain.
Les villes connaissent des taux d'immigration et d'émigration, des naissances et des décès. Comprendre les fonctions et les besoins de la ville – comme la consommation énergétique et alimentaire et les exigences en matière de logement – permet d'établir un lien entre tous ces éléments, afin de fournir les meilleurs services à la population et de les planifier pour le futur, sur la base de différents scénarios.
« Si vous comprenez le fonctionnement de votre ville, si vous savez de quelles ressources elle a besoin et comment le tout se combine, vous pouvez utiliser le modèle pour prendre des décisions concernant l'avenir des habitants », explique Leonardo Reyes. La capacité à déterminer les conséquences possibles de scénarios conceptuels est le principal point fort de la simulation.
En reproduisant l'organisation de l'infrastructure existante et en comparant les résultats avec la situation réelle, les simulations permettent de passer en revue les résultats possibles de nouveaux projets.
Par exemple, les urbanistes peuvent prévoir les changements probables au niveau du trafic provoqués par les projets de développement de la ville. Et limiter ainsi les risques d'encombrement.
Utilisation du data mining et de la simulation
Le data mining peut être utilisé pour des données concrètes, historiques. « Pour certains problèmes, c'est suffisant », affirme Herman Narula, DG d'Improbable.
« Par contre, pour des systèmes complexes ou des situations sans précédent pour lesquelles vous ne disposez d'aucune donnée, il peut être difficile de faire des prévisions pertinentes en extrapolant des tendances passées. » Dans ces cas-là, la solution est la simulation.
Mais la qualité d'une simulation dépend de la compréhension des relations entre les variables du système. Et cela ne se produit souvent qu'après l'exploration des données, l'identification des schémas et la vérification du modèle, via la simulation des événements en cours et la comparaison des résultats avec la réalité.
Les data-scientists doivent disposer de données en nombre suffisant, mais également fiables. « Les bons résultats exigent de bonnes données de départ », affirme Leonardo Reyes.
Exploration de données fiable
Il est important de mesurer les résultats à l'aune de ce qui se produit en réalité, pour s'assurer que le modèle constitue une représentation fidèle.
« La force du data mining – le fait de pouvoir rechercher ‘à l'aveugle’ des schémas dans les données – est également sa principale faiblesse », observe Enrico Scalas, professeur et chef du département de statistiques et probabilités à l'Université du Sussex. « Les corrélations peuvent avoir une cause commune, ou bien l'une des variables peut être la cause de l'autre – mais elles peuvent également s'avérer sans aucun fondement. »
En fonction de la durée du modèle, la recherche de schémas devra être effectuée à plusieurs reprises. « Il faut considérer la validation et l'amélioration du modèle comme un processus continu, pour tous les projets de simulation à long terme », explique Herman Narula. « C'est à l'expert en simulation de s'assurer que toutes les incertitudes sont traitées de façon rationnelle ».
Le data mining peut être exécuté sur un ordinateur de bureau conventionnel. Evidemment, plus les jeux de données sont volumineux, plus la puissance de traitement nécessaire est importante – surtout en cas de traitement parallèle.
Simulation distribuée entre plusieurs machines
Pour les simulations, toutefois, la visualisation exige une plus grande puissance de traitement. A une époque, il était impossible de répartir des simulations, mais Improbable par exemple a développé un système pour les cas où des éléments peuvent être définis comme une entité dans l'espace.
« SpatialOS distribue automatiquement le code sur des centaines, voire des milliers de machines, ce qui permet aux développeurs de créer des univers simulés d'une taille et d'un niveau de détail autrefois impossibles », indique Herman Narula.
Le data mining et la simulation ont souvent été considérés comme concurrents, alors qu'en fait ils sont complémentaires. Chacun informe l'autre afin de produire des résultats plus fiables.
Un data mining bien mené permet de mieux cerner les relations à l'oeuvre dans un système. Il est alors possible de modéliser des simulations pour élaborer des scénarios hypothétiques dont les résultats permettent des analyses plus approfondies. Il faut toutefois veiller à ce que les itérations de la modélisation n'amplifient pas d'éventuelles erreurs.
Avec l'augmentation de la puissance de traitement et la généralisation de l’enregistrement continue des données, il devient possible de modéliser des systèmes de plus en plus étendus et complexes, ce qui multiplie les applications possibles. Ces systèmes pourront alors aller plus loin dans la détection de conséquences auparavant imprévisibles, permettant ainsi d'en atténuer les effets négatifs avant qu'ils ne se matérialisent.