pinglabel - stock.adobe.com
Data Mining : les sept techniques les plus importantes
Cet article explique ce qu’est la pratique du data mining et les méthodes les plus intéressantes pour le mettre en place dans un projet de data science et de machine learning.
Le data mining est le processus qui consiste à examiner de grands volumes de données pour générer de nouvelles informations. Intuitivement, vous pourriez penser que « l’exploration » de données fait référence à l’extraction de nouvelles données, mais ce n’est pas le cas. Le data mining consiste plutôt à extrapoler des modèles et des connaissances à partir des données que vous avez déjà recueillies.
En s’appuyant sur des techniques et des technologies à l’intersection de la gestion des bases de données, des statistiques et du machine learning, les spécialistes du data mining ont consacré leur carrière à mieux comprendre comment traiter et tirer des conclusions de grandes quantités d’informations. Mais quelles sont les techniques qu’ils utilisent pour y parvenir ? Cet article liste et décrit les sept méthodes les plus importantes de data mining.
Les techniques de data mining
L’exploration de données via le data mining est très efficace, pour autant qu’elle s’appuie sur une ou plusieurs de ces techniques :
- Recherche de motifs (ou de patterns). L’une des techniques les plus fondamentales de l’exploration de données consiste à apprendre à reconnaître des motifs (ou patterns) dans vos jeux de données. Il s’agit généralement de la reconnaissance d’une aberration qui revient à intervalles réguliers, ou d’un flux et reflux d’une certaine variable dans le temps. Par exemple, vous pouvez constater que les ventes d’un certain produit semblent atteindre un pic juste avant les vacances, ou remarquer que la météo plus clémente attire davantage de personnes sur un site Web.
- La classification. La classification est une technique de data mining plus complexe qui vous oblige à rassembler divers attributs en catégories discernables, que vous pouvez par la suite exploiter pour tirer d’autres conclusions ou remplir une fonction. Par exemple, si vous évaluez des données sur les antécédents financiers et l’historique des achats de clients individuels, vous pouvez les classer suivant des notions de risques de crédit « faibles », « moyens » ou « élevés ». Vous pourriez ensuite utiliser ces classifications pour en apprendre davantage sur ces clients.
- L’association. L’association est liée au fait de détecter et de suivre des patterns, mais elle est plus spécifique aux variables liées entre elles. Dans ce cas, vous recherchez des événements ou des attributs spécifiques qui sont fortement corrélés à un autre événement ou attribut ; par exemple, vous pouvez remarquer que lorsque vos clients achètent un article, ils achètent aussi souvent un deuxième article connexe. C’est généralement ce qui est utilisé pour alimenter les algorithmes de recommandation des sections « les personnes ont également acheté » des boutiques en ligne.
- Détection des valeurs aberrantes. Dans de nombreux cas, la simple reconnaissance du modèle général ne permet pas de comprendre clairement votre ensemble de données. Vous devez également être en mesure d’identifier les anomalies ou les valeurs aberrantes. Par exemple, si vos acheteurs sont presque exclusivement des hommes, mais qu’au cours d’une semaine étrange en juillet, il y a un énorme pic d’acheteurs féminins, vous voudrez enquêter sur ce pic et voir ce qui l’a provoqué, afin de pouvoir soit le reproduire, soit mieux comprendre votre public dans le processus.
- Regroupement (ou clustering). Le clustering est très similaire à la classification, mais il consiste à regrouper des blocs de données en fonction de leurs similitudes. Vous pouvez choisir de regrouper différentes données démographiques de votre public dans différents groupes, en fonction de leur revenu disponible ou de la fréquence de leurs achats dans votre magasin.
- Régression. La régression, utilisée principalement comme une forme de planification et de modélisation, sert à identifier la probabilité d’une certaine variable, compte tenu de la présence d’autres variables. Par exemple, vous pouvez l’utiliser pour prévoir un certain prix, en fonction d’autres facteurs comme la disponibilité, la demande des consommateurs et la concurrence. Plus précisément, l’objectif principal de la régression est de vous aider à découvrir la relation exacte entre deux variables (ou plus) dans un ensemble de données.
- Prédiction. La prédiction est l’une des techniques d’exploration de données les plus précieuses, car elle est utilisée pour projeter les types de données que vous verrez à l’avenir. Dans de nombreux cas, il suffit de reconnaître et de comprendre les tendances historiques pour établir une prédiction assez précise de ce qui se passera à l’avenir. Par exemple, vous pouvez examiner les antécédents de crédit des consommateurs et leurs achats passés pour prédire s’ils présenteront un risque de crédit à l’avenir. Notons qu’une régression peut servir à mesurer l’évolution de la relation entre plusieurs variables dans le temps.
Les outils de data mining
Avez-vous besoin de la dernière et de la meilleure technologie de machine learning pour pouvoir appliquer ces techniques ? Pas nécessairement. En fait, vous pouvez probablement réaliser des opérations d’exploration de données de pointe avec des systèmes de base de données relativement modestes et des outils simples, que presque toutes les entreprises possèdent. Par exemple, les utilisateurs de SQL Server ont longtemps eu recours à SQL Server Data Tools (SSDT), dont les services sont désormais répartis dans plusieurs services Azure Analytics dans le cloud.
Vous pouvez toujours créer vos propres outils, mais des solutions open source peuvent aussi servir de base pour effectuer ce travail. C’est le cas du projet Apache Mahout, un framework d’algorithmes linéaires basé sur un langage de domaine spécifique inspiré de Scala. Mahout permet aux data scientists de déployer des modèles de régressions, de clustering et de recommandations afin d’effectuer ce data mining. Knime, basé sur Java est également bien doté pour explorer les données. Scikit-Learn qui combine Scypy, Matpotlib et Numpy est, lui, très apprécié des data scientists familiers avec Python. Rattle ou Madlib sont plutôt avancés, mais Orange propose des fonctionnalités de modélisation à travers une interface visuelle et low-code.
Quelle que soit votre approche, l’exploration de données est la meilleure collection de techniques dont vous disposez pour dégager le meilleur parti des données que vous avez déjà recueillies. Tant que vous appliquez la bonne logique et posez les bonnes questions, vous pouvez tirer des conclusions susceptibles de transformer votre entreprise.
Cet article est originellement paru dans les colonnes de DataScienceCentral.com, propriété de Techtarget, également propriétaire du MagIT.