ekkasit919 - stock.adobe.com
Machine Learning : l'indispensable préparation des données requiert encore (beaucoup) d'humain
Vous voulez automatiser vos processus grâce à l'intelligence artificielle ? D'accord. Mais ne négligez surtout pas le travail manuel qui reste encore nécessaire pour préparer les données avant de les injecter dans les algorithmes.
Les données sont au cœur de l'apprentissage statistique (ML). Elles sont cruciales pour l'apprentissage, le test, la validation et le suivi des algorithmes au cœur des systèmes d'Intelligence Artificielle (IA).
Une des raisons pour lesquelles l'IA a connu un regain de popularité est due en grande partie à la triple combinaison des capacités massives de traitement du cloud, de la disponibilité de grandes quantités de données et de l'évolution des algorithmes (notamment avec le Deep Learning). Les deux dernières de ces trois raisons touchent de près aux « datas ». En fait, plus vous en avez pour nourrir les algorithmes, mieux c'est.
Cependant, il ne suffit pas d'avoir beaucoup de données. Il faut aussi qu'elles soient de bonne qualité, sans quoi les systèmes d'IA sont des échecs. Les problèmes viennent presque toujours de cette qualité. Pour que les modèles statistiques soient correctement entrainés et qu'ils fournissent les résultats escomptés, les données utilisées doivent être propres, précises, complètes et bien labélisées. La préparation de ces données est donc une étape cruciale. Ce qui ne manque pas de créer aujourd'hui une nouvelle demande - en pleine croissance - d'outils et de services dans ce domaine.
C'est 80 % du temps des projets d'IA qui est consacré à la Data Preparation
Un rapport récent du cabinet de recherche et de conseil Cognilytica révèle que plus de 80 % du temps des projets d'IA est consacré à la préparation, au nettoyage et au tagging. Le rapport constate que les nombreuses étapes de collecte, d'agrégation, de filtrage, de nettoyage, de déduplication, d'amélioration, de sélection et tagging des données sont beaucoup plus nombreuses que celles nécessaires pour la Data Science, avec la construction de modèles, ou que celle du déploiement (qui reste néanmoins un défi majeur).
Pour accélérer ces 80 % des projets passés dans la Data Preparation, une nouvelle famille d'outils a vu le jour. Selon le rapport, ce marché est actuellement évalué à un peu plus de 500 millions de dollars et devrait plus que doubler pour atteindre 1,2 milliard de dollars d'ici fin 2023.
Les outils de préparation des données pour l'apprentissage statistique doivent être capables d'effectuer une longue liste de tâches : établissement de pipelines pour l'extraction et la collecte de données à partir de sources multiples, normalisation des formats, suppression ou remplacement de données invalides et des doublons, détection rapide des anomalies, résolution des conflits entre données, confirmation que les données sont exactes et mises à jour, amélioration des données (en les complétant, si nécessaire, en fonction des besoins du modèle), diminution du bruit, anonymisation et échantillonnage (par exemple pour avoir un jeu d'apprentissage et un jeu de test et de vérification).
Par le passé, les entreprises utilisaient des ETL pour transférer les données dans et hors des Data Warehouses afin de faciliter le reporting, l'analyse, la BI et autres opérations de ce type. Mais avec le cloud et le Big Data, le transfert l'ETL est de moins à la mode.
À la place, les entreprises cherchent à travailler avec les données où qu'elles se trouvent, sans les déplacer de leur lieu de stockage. Certains appellent cela « siroter dans le lac de données » (en v.o. « sipping from the data lake »). A la place de l'ETL, les professionnels veulent des outils qui peuvent extraire des informations à la demande de la source de données et les transformer une fois extraites et chargées. Il s'agit davantage d'un ELT que d'un ETL. Bon nombre d'outils du marché - comme Melissa Data, Trifacta ou Paxata - fonctionnent dans l'optique de supposer que les données se trouvent dans différents formats au sein de l'organisation.
Le tagging, le secret bien peu glamour de l'IA
Pour que le Machine Learning supervisé fonctionne, les algorithmes doivent être entrainés sur des données qui ont été tagguées. Par exemple, si vous essayez d'identifier des chats avec un algorithme cognitif, vous avez besoin de nombreuses images de chats, étiquetées "chat", pour créer un modèle de reconnaissance de chats.
Il est surprenant, surtout pour ceux qui ne sont pas confrontés au ML au quotidien, de constater à quel point ce travail demande des ressources... humaines.
Le ML supervisé constitue l'immense majorité des projets d'IA. La reconnaissance d'objets et d'images, les véhicules autonomes, l'analyse audio et l'annotation de texte et d'images sont les applications les plus courantes qui reposent sur le tagging. Et l'un des petits secrets de l'IA est que les humains sont toujours indispensables pour marquer et classer manuellement les données et contrôler la qualité de cet étiquetage.
Selon le rapport de Cognilytica, les entreprises ont dépensé plus de 750 millions de dollars en 2018 en interne pour tagger des données. Ce chiffre devrait atteindre plus de 2 milliards de dollars d'ici la fin de 2023.
Logiquement, au cours des dernières années, une nouvelle catégorie d'éditeur a vu le jour pour proposer d'externaliser cet étiquetage. Des acteurs comme Figure Eight, iMerit et CloudFactory fournissent des pools de main d'œuvre dédiés à l'annotation des données. Ces entreprises utilisent une main d'oeuvre dédiée, qui opère à de meilleures échelles et au meilleur coût. Le rapport de Cognilytica indique que ce marché des services de tagging externe était de 150 millions de dollars en 2018. Il devrait dépasser le milliard en 2023.
Mais même en passant par des services tiers - avec leurs économies d'échelle et leur main d'oeuvre bon marché - l'addition reste salée. Pour une raison simple, il n'y a tout simplement aucun moyen de se passer de l'humain.
L'IA va de plus en plus jouer un rôle dans la préparation des données
Cela ne veut pas dire qu'une partie du processus ne peut pas être automatisé ou tirer partie de l'IA. Bien au contraire. Le rapport souligne en effet, que la plupart des outils de Data Preparation pour le Machine Learning ajoutent de l'IA à leurs solutions pour traiter les tâches répétitives de façon autonome et fournir une meilleure aide pour guider les humains.
L'IA aide par exemple à détecter les anomalies, les schémas récurrents, les correspondances et d'autres aspects du nettoyage des données. Les moteurs d'inférence permettent aussi d'identifier les types de données et les éléments qui ne correspondent pas à la structure d'une donnée particulière. Le tout permet de repérer les problèmes potentiels de qualité ou de formatage et fournit des recommandations sur la façon de nettoyer les données.
Le rapport affirme que les principaux outils de préparation de données du marché, sans exception, s'appuieront sur l'IA d'ici 2021.
Le rapport de Cognilytica explique par ailleurs que les tâches de tagging seront de plus en plus « augmentées » au Machine Learning. L'utilisation de modèles pré-entrainés et l'apprentissage par transfert devraient réduire grandement le recours au travail humain.
Mais d'ici là, les entreprises qui décident de mener elles-mêmes leurs projets d'IA - plutôt que de reposer sur une technologie tierce - auront tout à gagner à provisionner correctement le tagging en ne sous-estimant pas le besoin humain et à prévoir un budget pour investir en parallèle dans une solution logicielle qui les aidera grandement à préparer leurs données pour le Machine Learning.