fazon - Fotolia
Quelle est la différence entre « Data Preparation » et « Data Exploration » ?
La « Data Preparation » et la « Data Exploration » sont deux phases préliminaires de l’analyse de données. Elles concernent la manière dont les données brutes sont ingérées dans un logiciel BI. Mais elles n’ont pas du tout la même fonction.
La montée en puissance du Big Data et de la BI Moderne, telle que décrite par Gartner, ont multiplié les termes en rapport avec « la donnée ». On en recense aujourd’hui une bonne vingtaine. Même si un professionnel de la BI sait de quoi il s’agit avec précision, il n’est souvent pas facile pour lui d’expliquer au métier ou au Top Management les subtilités de ces termes.
Pour clarifier ce vocable, pointu (et des fois marketing), cet article revient en premier lieu sur la différence entre la « Data Preparation » la et « Data Exploration » (d’autres mots-clefs seront abordés par la suite).
Pour commencer, la « Data Preparation » et la « Data Exploration » sont deux phases préliminaires de l’analytique. Elles concernent la manière dont les données brutes sont ingérées dans un logiciel BI. Mais elles n’ont pas la même fonction.
Data Preparation
C’est la toute première phase d’un projet BI ou d’une utilisation BI en self-service.
« La Data Préparation est le processus de transformation de données brutes en informations utiles pour les utilisateurs qui doivent prendre des décisions », explique Eric Delattre, de BIRST France (Infor).
Plus précisément, « la préparation de données englobe la fusion de plusieurs sources de données, le filtrage de données inutiles, la consolidation, l’agrégation de données et le calcul de valeurs supplémentaires basées sur les données brutes ».
Pour Qlik France, la Data préparation est la partie avant l’exploration et avant l’analyse. « Ceci comprend tout ce qui touche classiquement à l’ETL (Extraction, Transformation, Loading) et la qualité des données », résume la filiale.
Dans Qlik Sense, la Data Preparation se fait avec une interface graphique qui se veut utilisable en self-service. « C’est une des grandes forces de Qlik Sense », affirme l’éditeur.
Data Exploration
L’exploration de données fait suite à la phase de préparation.
Pour Qlik France, « elle concerne toute la partie dévolue à l’analyse des données “préparées”. L’objectif est de répondre à des questions et de trouver des réponses ».
Eric Delattre, de BIRST, clarifie cette étape. « La Data Exploration est le processus par lequel les métiers peuvent explorer de manière interactive les données qui leur sont présentées. Par exemple, l’exploration de données inclut le forage à des niveaux de détail inférieurs (drill down), le filtrage pour afficher un sous-ensemble de données ou réorganiser les données pour mieux les comprendre ».
En résumé, cette étape est – comme son nom l’indique – une exploration de la donnée non transformée.
Des boîtes et des trous
Pour bien symboliser la différence entre les deux, Qlik fait appel à une métaphore : « imaginez l’analyse de données comme le moyen de jouer avec des boîtes ».
« La préparation consistera à créer la boîte et à la remplir avec vos données à vous. Une fois la boîte remplie, on va poser dessus des couvercles avec des trous de différentes tailles et formes pour pouvoir regarder ce qu’il y a dedans. C’est la partie exploration ».
Au final, le self-service est la possibilité de créer son « propre couvercle avec des trous adaptés à mon besoin. Mais, ce sont toujours les mêmes données que je regarde. »