Pistes pour comparer les outils d’analytiques avancées
Le choix d’un fournisseur de BI augmentée et d’analytique avancée peut être difficile tant les offres semblent similaires au premier abord. Voici quelques conseils du Gartner et de Forrester pour mieux sélectionner ses outils.
Les éditeurs de BI et d’analytique continuent à moderniser leurs offres en y infusant de l’apprentissage statistique (Machine Learning) et de l’IA, faisant ainsi ce que l’on appelle de l’analytique « augmentée » et « avancée ». Le but du premier (analytique augmentée) est de permettre aux experts (Data Scientists), aux analystes métiers et aux novices en charge de l’opérationnel (Citizen Data Scientists) de tirer plus rapidement et plus facilement les informations (les insights) dont ils ont besoin. Le deuxième (analytique avancée) ajoute du prédictif voire du prescriptif à la BI qui était jusqu’à il y a peu assimilable à de l’analytique « descriptive » et « explicative ».
Le fait que tous les éditeurs suivent ces deux sentiers peut rendre le choix d’un fournisseur déroutant tant leurs offres semblent – et sont souvent – très similaires.
Traditionnellement, la BI a été associée aux rapports, et l’analytique aux tableaux de bord dynamiques et interactifs. Mais la distinction entre les deux s’estompe. Et même les tableaux de bord semblent voués à disparaître à plus ou moins long terme.
La prochaine étape de la BI est déjà là, ne l’oubliez pas
« L’analytique augmentée va changer fondamentalement l’expérience de l’utilisateur », avance Rita Sallam du Gartner. « En fait, le tableau de bord en tant qu’outil principal et portail des insights devrait décliner ; car lorsque vous aurez des enseignements issus des données qui seront automatisés en fonction du contexte d’un utilisateur et expliqués en langage naturel, vous pourrez offrir une expérience plus personnalisée [qu’avec un dashboard générique] ».
Au moment de choisir un éditeur, il ne faudra pas hésiter à les challenger sur ces évolutions annoncées. Il ne s’agit plus d’avoir d’un côté un tableau de bord statique et synthétique pour les métiers et de l’autre des analystes qui font une exploration plus approfondie et qui explique les résultats.
L’analytique augmentée « saute directement à la fin de l’histoire » – résume Rita Sallam. Elle fait de l’explication dynamique des données, explique les modèles, les éléments clefs, les clusters, les valeurs aberrantes et les corrélations. L’analytique avancée peut également prescrire à l’utilisateur ce qu’il doit faire sur la base des résultats augmentés.
Regardez au-delà des fonctionnalités pures
Les rapports de Gartner et de Forrester Research donnent quelques bons conseils pour bien choisir son outil. Aucun des deux ne classe les éditeurs uniquement sur leurs outils augmentés et avancés, mais les deux sont d’accord pour dire que ces fonctionnalités infusées à l’IA joueront un rôle de plus en plus important dès cette année 2020.
Boris Evelson, vice-président et analyste de Forrester Research, avoue qu’il a eu du mal à comparer les éditeurs en ne regardant que leurs fonctionnalités. Dès que l’un d’entre eux sort une nouveauté, tous les autres suivent – et rapidement – avance-t-il.
Il recommande donc de prêter une grande attention aux aspects non technologiques comme la relation avec l’éditeur, la tarification et la disponibilité des ressources.
« Ne passez pas trop de temps à passer en revue chaque fonctionnalité du produit. Regardez plutôt les facteurs adjacents », invite-t-il.
Un des points différenciants est que certains éditeurs proposent une couche entière d’informatique décisionnelle et d’analytique, alors que d’autres ne proposent qu’une brique et s’appuient sur des partenaires pour la compléter avec d’autres fonctionnalités.
Chaque option a ses avantages (assurance d’avoir le meilleur de chaque sous-domaine dans le cas du « Best of Breed » ; suite intégrée nativement avec un modèle de données commun pour la stack complète) et ses inconvénients (besoin d’intégration ou dépendance possible à un éditeur unique).
L’existant et la stratégie IT globale de l’entreprise jouent aussi un rôle. Si une grande entreprise s’apprête à tout migrer vers Azure, Boris Evelson estime qu’il est difficile de recommander autre chose que Power BI. De même, si les suites ERP et CRM d’une entreprise viennent de SAP (ou d’Oracle), il recommandera prioritairement l’analytique de SAP (ou d’Oracle).
NLP, option ou obligation ?
À mesure que les nouvelles générations arrivent dans l’entreprise, les interactions en langage naturel avec les applications se démocratisent. La BI et l’analytique ne font pas exception.
Un choix long terme pousse donc aussi à se poser la question de la stratégie des éditeurs dans cet autre domaine de l’analytique augmentée.
Typiquement, les éditeurs travaillent dans deux domaines du traitement du langage naturel (Natural Language Processing ou NLP) : la compréhension des demandes (Natural Language Understanding ou NLU) et la génération d’un discours (Natural Language Generation ou NLG).
Le NLU est nécessaire pour comprendre les requêtes – écrites ou vocales. Le NLG, lui, accompagne et explique les visualisations et les résultats.
N’hésitez donc pas à sonder vos utilisateurs pour voir les attentes en la matière (qui peuvent différer en fonction des classes d’âge) et à questionner les éditeurs sur leurs feuilles de route sur le NLP
Automated Machine Learning : oui, mais lequel ?
Faire de la Data Science c’est bien. Mais la démocratiser c’est encore mieux. Un des nouveaux outils qui permet de le faire s’appelle l’Automated Machine Learning (le ML automatisé).
Rita Sallam voit l’Automated Machine Learning comme « l’avenir de l’analytique augmentée ». L’Intelligence artificielle ici automatise le feature engineering (qui détermine les variables d’entrées pertinentes pour un algorithme), la sélection des modèles ou encore l’explicabilité. Elle peut également identifier les biais d’un modèle et les problèmes de données privées.
« Vous avez des acteurs précurseurs comme DataRobot, H20.ai et RapidMiner. Mais beaucoup d’autres s’y mettent comme Microsoft avec autoML […] SAS ou IBM », constate-t-elle. On citera également des acteurs comme Dataiku ou Alteryx, qui en fait un axe majeur de sa stratégie.
Le but de ces outils est de mâcher le travail pour les DataScientists et de rendre le ML accessible aux métiers (à condition de les préparer et de les former).
« Il y a une longue liste d’éditeurs qui s’efforcent de permettre à une personne sans expertise en statistique ou en code, de charger un jeu de données et de simplement sélectionner une valeur cible à prédire. Leurs outils traitent ensuite automatiquement les données, analysent leurs attributs, essayent différents algorithmes, les valident pour s’assurer qu’il n’y a pas de surapprentissage, et les classent selon leur degré de précision », explique Kjell Carlsson, analyste chez Forrester. « Certains vous donnent la possibilité de choisir un indicateur particulier de performance et parfois ils vous laissent même déployer le modèle en production ».
Mais dans cette « longue liste », chaque outil à sa cible. Il y a « Automated Machine Learning » et « Automated Machine Learning ». On distinguera deux grandes familles, conseille Kjell Carlsson : « les solutions multimodales d’analyse prédictive et d’apprentissage statistique » (qui permettent aux spécialistes de faire des prévisions plus efficacement) et les « solutions axées sur l’automatisation du Machine Learning » pour les utilisateurs métiers (solutions qui automatisent presque toutes les étapes).
Là encore, en fonction des besoins internes que vous identifierez, vous pourrez réserver ces outils à l’une ou à l’autre de ces catégories. Ou au contraire, essayer pour les deux. Et donc affiner votre choix.