Préparation des données
La préparation des données (ou data preparation, en anglais) consiste à rassembler, combiner, structurer et organiser les données afin de pouvoir les analyser dans le cadre de programmes d'informatique décisionnelle (BI, Business Intelligence) et d'analytique métier (BA, Business Analytics).
Ce processus comprend la découverte, le profilage, le nettoyage, la validation et la transformation des données ; il implique souvent d'assembler des données provenant de différents systèmes internes et externes.
Le travail de préparation est effectué par les équipes des services IT et BI, qui intègrent des ensembles de données pour les charger dans un entrepôt de données, une base de données NoSQL ou un référentiel sous forme de lac de données Hadoop. En outre, les analystes des données peuvent utiliser des outils de préparation en libre-service pour collecter et préparer eux-mêmes les données à analyser.
L'un des principaux objectifs de la préparation des données consiste à assurer que les informations concernées sont exactes et cohérentes, afin que les applications BI et BA donnent des résultats pertinents. En effet, les données sont souvent créées avec des valeurs manquantes, des inexactitudes ou d'autres erreurs. De plus, les ensembles de données sont souvent stockés dans des fichiers ou bases de données sous des formats différents, qui doivent donc être harmonisés. Le processus de correction des erreurs et de jointure des ensembles de données représente une large part de la préparation des données.
Dans les applications de Big Data, la préparation des données est généralement une tâche automatisée, car il faudrait des années aux techniciens informatiques ou analystes de données pour corriger manuellement chaque champ de chaque fichier destiné à une analyse. Des algorithmes permettent d'accélérer le processus : ils examinent les champs de données et les complètent automatiquement par des valeurs vides, ou renomment certains champs dans un souci de cohérence en cas de jointure de fichiers de données.
Une fois les données validées et homogénéisées, le logiciel de préparation exécute un workflow, au cours duquel les fichiers subissent certaines opérations. Par exemple, cette étape peut comporter la création dans le fichier d'un champ qui regroupe les décomptes de champs préexistants ou l'application aux données d'une formule statistique (telle qu'un modèle de régression linéaire ou logistique). Une fois le workflow exécuté, les données sont écrites dans un fichier finalisé qui peut être chargé dans une base de données ou autre datastore afin d'y être analysé.
Bien que la préparation des données soit aujourd'hui largement automatisée, elle peut encore prendre beaucoup de temps, notamment en raison de l'augmentation constante du volume des données à analyser. Les data scientists se plaignent souvent de devoir passer le plus clair de leur temps à localiser et à nettoyer les données plutôt qu'à les analyser. C'est en partie pour cette raison que de plus en plus de fournisseurs de logiciels se penchent sur le problème de la préparation des données et que de nombreuses entreprises consacrent plus de ressources à automatiser ce processus.