Data Discovery, Data Mining : quelle différence ?
Ces deux pans de l'analytique explorent les données pour en tirer des enseignements. Mais le premier simplifie les démarches pour les utilisateurs métiers, là où le deuxième - plus sur mesure - désigne les outils pour les experts de la Data Science.
Le vocabulaire de l'analyse des données peut parfois créer une forme de confusion. Certains termes semblent proches, alors qu'ils ne le sont pas (Data Exploration et Data Discovery par exemple). D'autres semblent éloignés mais sont en fait voisin (Data Exploration et Data Preparation).
Dans cet article, nous revenons sur la différence Data Discovery et Data Mining (qui pour ne rien arranger peut se traduire par « exploration de la donnée », tout comme la phase préparatoire citée ci-dessus).
Data Mining : l'analytique des experts
« Le Data Mining a pour objet l’extraction des savoirs et des connaissances à l’aide de techniques de "fouilles" plus ou moins automatiques des données », synthétise Raphaël Savy, Directeur Europe Sud d’Alteryx.
« L’idée, c'est de transformer de la donnée en information utile (NDR : les fameux "Insights"). Ces transformations peuvent être effectuées par des processus simples (par exemple des analyses de corrélations avec des traitements statistiques) ou plus complexes, par exemple du Machine Learning pour faire des regroupements prédictifs (Clustering), ou du Deep Learning pour de la détection d’anomalies », précise-t-il.
Edouard Beaucourt, Directeur Europe du Sud de Tableau, confirme. Pour lui, le Data Mining détermine des corrélations - des modèles répétitifs et des récurrences - entre différents types de données grâce à « des algorithmes complexes qui permettent par exemple de ranger les données dans des catégories (Cluster) et/ou de dégager des projections (Forecast) ».
Pour Mouloud Dey, Directeur de l’Innovation chez SAS, le Data Mining repose sur deux piliers. Le premier est effectivement des « technologies analytiques et de visualisations avancées ». Le deuxième est une démarche et une méthodologie pertinente pour automatiser le cycle analytique et trouver les bons modèles prédictifs pour un processus métier donné (par exemple la maintenance prédictive d'un constructeur particulier).
Il s'agit « d'une démarche scientifique plus systématique pour automatiser la recherche de modèles prédictifs, leur sélection et leur gestion et tirer parti des meilleures méthodes statistiques et des meilleurs algorithmes de Machine Learning », résume-t-il.
Analytique avancée, choix des algorithmes et des modèles, Machine Learning, méthodologie appropriée : le Data Mining est une affaire de spécialistes.
« Le Data Mining est plus destiné à des profils techniques - comme des statisticiens », confirme Christophe Jouve, Principal Solution Architect chez Qlik. « Les logiciels de Data Mining intègrent des algorithmes complexes et des modèles de segmentation des données, avec pour ambition de conduire à des prédictions ». Les actuaires dans les sociétés d'assurance sont par exemple des utilisateurs importants de solutions de Data Mining, illustre-t-il.
Data Discovery, l'analytique pour les profanes
A l'inverse, la Data Discovery permet à un utilisateur métier - sans compétence technique particulière - d’extraire et d’interpréter des données pouvant provenir de sources hétérogènes, dixit Edouard Beaucourt de Tableau. « Pour interpréter ces données rapidement, l'utilisation d'outils de DataViz est incontournable ».
Le constat de l'articulation avec la DataViz et d'une cible plus profane est partagé par Alteryx. « La Data Discovery permet de trouver, de visualiser et de raconter les découvertes importantes autour des données (corrélations, regroupements, liens et prédictions) sans qu’aucun algorithme n’ait été paramétré préalablement. Les technologies les plus avancées permettent même de “raconter” les faits marquants en langage naturel », explique Raphaël Savy. « En synthèse, nous pourrions dire que la Data Discovery est possible grâce à la combinaison des technologies de Data Mining et des technologies de Data Visualisation. »
Chez Qlik, Christophe Jouve, définit lui-aussi la Data Discovery, comme « l'art d'explorer ses données pour faire des découvertes » mais avec un outillage adapté à sa cible de non expert. « Elle nécessite un logiciel dynamique, qui recalcule instantanément les valeurs à chaque sélection, et qui ne vous oblige pas à emprunter un chemin tout tracé pour faire vos requêtes, comme c'est le cas avec les outils de BI de première génération ».
Pour bien illustrer ce point, le Solution Architect de Qlik prend l'exemple d'un manager qui regarderait les résultats des ventes. Celui-ci s'aperçoit alors qu'un commercial n'a pas atteint ses objectifs - alors que tous les autres les ont dépassés. Il regarde alors quels produits ce commercial a vendus. Dans la liste apparaissent aussi ceux qu'il n'a pas vendus.
Le responsable refait un tri sur ces produits non vendus et voit que ce sont ceux qui génèrent habituellement le plus gros de son chiffre d'affaires et que tous les autres commerciaux les ont, eux, vendus.
Avec ce processus typique de Data Discovery, « vous avez toutes les cartes en main pour mener une discussion avec ce commercial et comprendre pourquoi il ne vend pas ces produits comme les autres : a-t-il besoin d'une formation, ou autre ? ».
Qlik souligne, lui aussi, l'intrication étroite entre Dataviz et Data Discovery. « Avec la DataViz, vous exploitez toute la valeur de vos données et vous collaborez plus facilement en interne et en externe, autour des mêmes tableaux de bord et des mêmes résultats d'analyse », conclut Christophe Jouve.
Une autre définition
Chez SAS, Mouloud Dey, a une vision plus globale de ce qu'est la Data Discovery. Pour lui, il s'agit de l’axe analytique central dans le cycle en trois temps (Data - Discovery - Deployment) de la science des données.
« Cette phase essentielle concrétise les aspects proprement scientifiques d’une démarche analytique. La Data Discovery associe plusieurs perspectives complémentaires : Hindsight (Que se passe-t-il ?) - phase d’éclairage, de prise de recul sur le sujet traité, descriptive, les données permettent d’établir les faits, d’émettre des hypothèses sans pour autant fournir une explication fiable ; Insight (Qu'est-ce qui est important?) - phase explicative pour comprendre, identifier des schémas récurrents, des tendances, des corrélations, découvrir les causes probables, poser un diagnostic, voire de modéliser le phénomène étudié. Foresight (Que va-t-il se passer ? Quelle est l'étape suivante ?) - phase de mise en situation qui permet de concevoir et de choisir les meilleurs modèles prédictifs, d’évaluer les scénarios, de les anticiper, de recommander les meilleures décisions, ou les décisions optimales tenant compte de contraintes spécifiques au domaine. »
Pour SAS, cette acceptation du terme ne concerne pas véritablement les métiers puisque la Data Discovery va jusqu'à « l’élaboration de modèles prédictifs ».