Des données non structurées aux données structurées : c’est possible avec le Machine Learning
Avec la puissance de calcul facilement accessible et les progrès en matière de Machine Learning, il devient plus facile et moins coûteux de transformer les données non structurées en sources d'information comestible.
En grande partie, la plupart des données collectées par les entreprises ne sont pas structurées. Ces données ne correspondent pas à un modèle de données existant, comme les données structurées voire même semi-structurées. Pour de nombreuses entreprises, ces données non structurées sont inutiles, dans une certaine mesure.
Reposons nous sur un exemple pratique : pour créer une nouvelle garde-robe, vous commandez des chemises et des pantalons sur un site de eCommerce, mais lorsque les commandes arrivent, elles ne contiennent qu’un unique pantalon et une seule chemise. Le reste est rempli de morceaux de laine, de coton, de fil et de quelques boutons.
Techniquement, ces matériaux sont à la base des vêtements, mais en l’état, ils ne sont pas utilisables directement. Les utiliser nécessite beaucoup de temps et un investissement dans les outils et la formation. C'est le problème des données non structurées ; il n'y a pas de bonne méthode pour les utiliser ou pour en extraire les précieux renseignements.
Le Machine Learning, un filtre pour données non structurées
Pour pouvoir les exploiter, « il faut beaucoup de temps et d'argent », souligne Nav Kesher, responsable en data science en charge de l’expérience de Facebook Marketplace.
Environ 80 % de toutes les données ne sont pas structurées, précise-t-il lors d’une intervention pendant AI Summit de San Francisco. Mais si par le passé, elles ont été oubliées ou tout simplement ignorées, les pratiques commencent à changer.
La puissance de calcul est devenue bon marché, commente l’expert. Les entreprises ont donc la possibilité d'alimenter, plus facilement et à moindre coût, les algorithmes qui transforment les données non structurées en données structurées. Ces algorithmes, eux aussi, ont gagné en intelligence. Grâce à des financements arrivés en masse et des technologies qui progressent, ils sont devenus de plus en plus avancés.
« Les données non structurées ne valent rien sans le Machine Learning », lance encore Nav Kesher.
Une fois entrainés, les modèles peuvent être utilisés pour déplacer automatiquement les données non structurées et leur attribuer des métadonnées ou des étiquettes et les classer. Il ne s'agit pas d'un processus indolore, il peut être coûteux et long, mais cette transformation est aujourd’hui devenue plus simple.
Avancer progressivement
Pour commencer à mener un chantier autour des données non structurées, il convient de se fixer un objectif métier - quelque chose qui peut être formulé en 10 mots et qui connecte les objectifs commerciaux aux objectifs d'analyse, explique encore Nav Kesher. « Ai-je besoin d'une classification ou d'un regroupement ? » est par exemple une question à se poser. La réponse déterminera le cours du processus, affirme-t-il.
Dans cette optique, il convient d'évaluer les sources de données. Il s’agit là de choisir des données précises et pertinentes par rapport à l'objectif, souligne l’expert, qui recommande de mettre en place des priorités.
L'étape suivante porte sur le nettoyage des données, ce processus d'identification et de correction des erreurs (fautes de frappe ou formatage) et cela peut représenter beaucoup de travail. Il convient de rechercher les erreurs générales et d’appliquer un modèle de ML pour les corriger automatiquement.
Modéliser et visualiser
Arrive ensuite la modélisation des données. Les relations dans les données sont identifiées et marquées. Ce processus peut être long, mais c'est un processus important, car ces relations contiennent les clés pour utiliser les données avec précision.
La modélisation des données est très spécifique. « Vous devez trouver par vous-mêmes le niveau de précision dont vous avez besoin », conseille Nav Kesher.
La dernière étape est la visualisation des données. « Une étape qui peut sembler sans importance, mais qui est essentielle », selon le responsable.
« Si vous n'êtes pas en mesure de présenter votre analyse avec de bonnes visualisations et de bonnes histoires, il vous sera très difficile de convaincre les responsables métier », lance-t-il.
Il existe de nombreux types de graphiques et de tableaux à utiliser pour visualiser les données, il est donc important de les évaluer, rappelle l’expert. En fin de compte, « la science des données ne consiste pas seulement à développer des modèles », assure-t-il. Il s'agit de prendre des informations brutes et de les rendre intéressantes pour une cible donnée.