Le Machine Learning renait avec le Big Data
Le Machine Learning est loin d’être un phénomène récent. Ce qui est nouveau, en revanche, c'est le nombre de plateformes de traitements parallélisées des données destinées à la gestion des Big Data.
La déferlante de technologies et d’applications commerciales autour du Machine Learning est phénoménale. Pourtant; ces techniques sont loin d’être nouvelles. Ce qui est nouveau, en revanche, c'est le nombre de plateformes de traitement des données en parallèle, dont la vocation est de porter le Machine Learning près du Big Data.
A l’occasion de la dernière conférence Strata+Hadoop World qui s’est tenue à San José, les experts de la donnée se sont accordés à dire que la complexité des modèles et des algorithmes prédictifs de Machine Learning peuvent limiter leur usage en entreprise. Des écueils peuvent toutefois être contournés par certains outils.
« La puissance des technologies de Machine Learning évolue au même rythme que la donnée, mais les temps de formation et d’apprentissage peuvent aussi augmenter de façon exponentielle », soutient Ryan Michaluk, un Data Scientist, employé par une compagnie d’assurance américaine.
Avec des modèles toujours plus sophistiquées et un volume de données plus important à traiter, ajoute-t-il, le Machine Learning est actuellement un goulot d’étranglement dans les entreprises. Résultat, les modèles fonctionnent sur des échantillons de jeux de données, nuisant à l’exactitude et la notion de prédictibilité.
Selon lui, utiliser un pool de données avec Hadoop constitue une réponse partielle aux problèmes de volume, mais ceux portant sur le Machine Learning pur seront probablement plus difficiles à résoudre. « Certains algorithmes parallélisent – d’autres pas du tout », ajoute-t-il.
La complexité des modèles et le volume des données sont des freins
Ryan Michaluk explique que sa société a commencé à utiliser Hadoop associé aux outils de Machine Learning de Skytree. Ses équipes peuvent désormais exploiter les modèles d’apprentissage existants et les exécuter sur des jeux de données plus importants. Elles réalisent ainsi de meilleures prédictions. Ces modèles contribuent à améliorer les prises de décision en prenant en compte le pricing, la prévention de fraudes, le marketing et la conception de page Web.
Et aussi
Le Data Scientist affirme que les travaux entre le monde de l’assurance et les tables actuarielles en ont fait un domaine propice l’usage statistique du Machine Learning, et de ses attributs de prédiction.
Mais le volume de données, la complexité des modèles et le nombre d’itérations nécessaire pour créer les modèles étaient devenus de vrais freins au traitement. Selon lui, ces nouvelles plateformes de traitements des Big Data peuvent apporter de la simplification et ainsi étendre l’usage du Machine Learning.
« Ce que vous ne pouviez pas tenter jusqu’alors, peuvent aujourd’hui être effectué. Au lieu de regarder l’ordinateur travailler, j’ai plus de temps pour résoudre des problèmes », explique-t-il.
Les délais de modélisation
Pour Lou Carvalheira, en charge de l’analytique chez Cisco, le Machine Learning a soutenu l’analytique pendant de nombreuses années. Cette notion est si familière qu’on n’en parle plus, ajoute-t-il.
Ce qui est nouveau dans cette recherche de nouveaux acheteurs est que « nous identifions des moyens pour dimensionner les traitements. Le Machine Learning est renforcé par le fait que vous pouvez désormais traiter bien plus de données. Vous exploitez plusieurs sources de calculs, et non plus un simple ordinateur ».
Toutefois, Cisco doit supporter de nombreux partenaires, revendeurs et projets marketing. Le temps passé à exécuter des milliers de modèles d’apprentissage est devenu une vraie difficulté pour lui.
Cette notion de délai est critique car ces analyses doivent déboucher sur des actions concrètes. Il est donc important d’identifier rapidement les caractéristiques des acheteurs. Mais cela doit être fait dans le bon timing du cycle des ventes. En retour, les équipes marketing et ventes doivent créer des produits qui séduisent les clients.
« Vous créez un indice de probabilité sur qui achète et combien il peut dépenser. Cette combinaison peut être très puissante. Le problème que nous avons rencontré a été celui de la création de modèles prédictifs dans les délais suffisants pour personnaliser les actions », résume encore Lou Carvalheira.
Pour cela, lui et ses collègues chez Cisco se sont associés à H2O, un fabricant de plateforme de Machine Learning pour l’analytique. H2O a une version améliorée de MapReduce.
Spark : un intérêt de plus en plus prononcé
Bien qu’utilisé dans de nombreuses tâches, le moteur Apache Spark est souvent intégré à ce qui peut être décrit comme des applications de Machine Learning nouvelle génération – les moteurs de recommandation en sont l’exemple premier.
Krishna Roy, analyste au 451 Group, a positionné H2O et Skytree aux côtés des start-ups du Machine Learning, comme Ayasdi, BigML et Nutonian.
Ces start-ups rivalisent avec des ténors de l’analytique comme IBM, Microsoft et SAS Institute. H2O et Skytree ont débuté bien avant l’avènement de Spark. Les deux entreprises ont annoncé le support de Spark, le framework étant complémentaire à leurs propres offres.