Definition

Data Exploration

Première étape de l'analyse des données, l'exploration des données (Data Exploration) consiste à synthétiser les principales caractéristiques d'un ensemble de données. Si on utilise couramment des outils analytiques graphiques, le recours à des logiciels statistiques plus évolués comme R est également possible.

Avant toute analyse formelle des données, l'analyste doit connaître le nombre de cas dans l'ensemble de données, les variables qui s'y trouvent, le nombre d'observations manquantes et les hypothèses générales que les données laissent entrevoir. Pour répondre à ces questions, une première exploration de l'ensemble de données, permettant aux analystes de se familiariser avec les données qu'ils vont manipuler, est utile.

Pour cette exploration, les analystes utilisent souvent des logiciels de visualisation des données qui montrent rapidement et simplement les caractéristiques les plus pertinentes de l'ensemble de données. Ils peuvent alors repérer les variables susceptibles de mener à des observations intéressantes. Les représentations graphiques des données, par exemple sous forme de nuages de points ou de barres, aident les utilisateurs à voir les éventuelles corrélations entre deux variables ou plus et à déterminer si ces variables méritent une analyse approfondie.

Cette définition a été mise à jour en juillet 2016

Pour approfondir sur Outils décisionnels et analytiques