Alteryx met les voiles sur l’automatisation du Machine Learning
Lors de son évènement européen, l’éditeur américain a annoncé la bêta d’un outil pour aider les métiers à se lancer dans les algorithmes. Mais Alteryx ne néglige pas la Data Prep, qui reste un de ses atouts clefs, y compris pour ses nouvelles promesses dans le Machine Learning.
Londres – Quels sont les restaurants qui seront prochainement promus par le Guide Michelin à Londres ? L’idée de l’éditeur américain Alteryx – qui a déjà prévu le vainqueur de la coupe du monde de Rugby[1] – est qu’une bonne pincée de Machine Learning devrait répondre – ou en tout cas aider à répondre – à la question.
Mais encore faut-il savoir quel(s) algorithme(s) appliquer et quelles variables pertinentes sélectionner pour faire la prédiction.
Choix automatisé des algorithmes et ML en glisser-déposer
Un Data Scientist n’aura a priori pas de mal à faire ces choix. Le problème vient du fait que les Data Scientists restent une denrée rare. Lors de son évènement européen Inspire 2019 qui se tient cette semaine à Londres, Alteryx l’a souligné à maintes reprises, vantant les mérites d’outils plus automatisés pour transformer les Data Analysts orientés métiers en « Citizen Data Scientists ».
Une des prochaines fonctionnalités phares de son Designer (son outil de workflow analytique en glisser-déposer) est en plein dans cette stratégie : l’« Assisted Modeling ».
Présenté il y a un an, cet assistant qui automatise le Machine Learning (ML) est désormais disponible en bêta. Sur la scène des Tobbaco Docks de la capitale anglaise, Melissa Burroughs, Sr. Product Marketing Manager, en a fait une démonstration devant 2500 personnes.
En quelques minutes, la responsable a créé, sans une ligne de code de R ou de Python, un pipeline ML – généré automatiquement par l’assistant.
Après avoir importé plusieurs jeux de données (Guide Michelin, nombre de critiques sur les sites, nombre de photos sur les réseaux sociaux, etc.) – des sources qui au passage restent une des phases les plus critiques du ML – et après les avoir nettoyés, le Designer propose de lui-même plusieurs méthodes jugées pertinentes par rapport aux informations (régression logistique, arbre décisionnel, Random Forest).
Chaque méthode est documentée et expliquée à l’utilisateur « novice » (les pour, les contre, les cas d’usage courants). Et les facteurs pertinents dans les données (ici le type de cuisine, le nombre de critiques, et les notes de revues spécialisées, etc.) sont mis en avant, d’autres écartés.
L’outil teste, si besoin, plusieurs algorithmes les uns contre les autres pour voir ceux qui produisent, sur l’historique, les meilleurs résultats.
Les prédictions peuvent ensuite être visualisées sur une carte (autre nouveauté présentée par l’éditeur) et publiées – via Alteryx Promote – pour les partager.
Un outil plus Business Analyst ou pour Data Scientist ?
La démonstration est très réussie. Mais des spécialistes mettent en garde. Le cœur du Machine Learning reste la qualité de la donnée. Cela tombe plutôt bien pour Alteryx qui met certes l’accent sur « l’analytique avancée », mais qui fait encore 80 % de son activité sur la Data Preparation au sens large (automatisée, elle aussi), selon Alan Jacobson, Chief Data & Analytics Officer de l’éditeur.
L’autre avertissement concerne la cible de ce type d’outils. « La question est de savoir si cet “assisted modeling” va rendre les Data Scientists plus productifs ou s’il vise à démocratiser le Machine Learning auprès des Business Analysts. Dans ce cas, la promesse peut s’avérer dangereuse », tempère Carsten Bange, du cabinet BARC, qui estime que les erreurs en sortie pourraient être grandes si l’utilisateur ne comprend pas vraiment ce qu’il fait. « Pour moi, au regard des fonctionnalités présentées, cet outil est à mettre dans les mains des Data Scientists ».
L’analyste note d’ailleurs qu’un concurrent d’Alteryx dans le domaine du Machine Learning automatisé, DataRobot, vise clairement les experts de la donnée. Quoiqu’il en soit, l’automatisation de l’Intelligence Artificielle ne signifie pas faire l’économie de la formation des analystes métiers aux algorithmes, prévient Carsten Bange.
L’atout bout en bout
Il n’en reste pas moins qu’avec cette présentation, Alteryx montre la voie qu’il entend emprunter dans les mois à venir : la piste – encore à défricher pour la plupart des entreprises – du Machine Learning.
Avec sa puissance de feu financière, son introduction en bourse en 2017, et un chiffre d’affaires en progression fulgurante qui dépasse aujourd’hui les 250 millions de dollars, Alteryx a les moyens de ses ambitions. D’autant que face à ses concurrents, l’éditeur fondé en 1997, a un atout de taille… son historique dans la gestion de données et l’automatisation des workflows analytiques.
Un des clients présents à Londres, Benoit Raffin-Peyloz (Chief Data Officer de la Caisse d’Épargne Hauts-de-France) a d’ailleurs fait part de son enthousiasme au MagIT sur cette partie, critique pour tout processus « data driven », et qui, dans la banque nordiste, est utilisée en amont de la Data Viz dans Tableau pour, par exemple, déterminer les emplacements des futures agences (sans, aujourd’hui, de ML dans Alteryx).
Alan Duncan, de Gartner, est du même avis. Pour lui, la couverture (presque) complète d’Alteryx joue clairement en faveur de l’éditeur. Même si l’éditeur n’est pas en 2019 dans les Leaders du Magic Quadrant des plateformes de ML.
« Il faut bien voir qu’Alteryx est présent sur trois segments. La Data Prep, la Data Science et la Data Viz », rappelle l’analyste. « Alteryx n’est peut-être pas aussi bon qu’Informatica ou Talend dans l’ETL. Ou que KNIME ou SAS dans les purs outils de Data Sciences. Ou que Tableau et Qlik dans la visualisation. Mais ils sont en première division de chacun de ces segments. Et quand vous les mettez tous les uns à côté des autres, vous n’êtes pas loin d’avoir une stack analytique complète qui fait sens ».
Inspire 2019 a d’ailleurs été l’occasion d’annonces moins « séduisantes » que l’automatisation des modèles ou les graphiques interactifs (qui fait dire à Alan Duncan que l’éditeur lorgne de plus en plus sur la Data Viz), mais toutes aussi importantes.
La plus applaudie a été dans le Data Lineage (retrouver un champ dans tous les jeux de données et le workflow analytique). Une autre, plébiscitée par Benoit Raffin-Peyloz de la Caisse d’Épargne, est la bêta d’un nouvel Alteryx Server refondu en profondeur (gestion des rôles, gouvernance, sites, etc.).
En France, où Alteryx a ouvert un bureau depuis un an, Alteryx compte parmi ses clients – et en plus de la Caisse d’Épargne – l’industriel Roquette, EDF, Saint-Gobain, Accor, AG2R, Renault, Pierre Fabre ou encore Airbus. Malgré ces jolies prises, un des principaux défis du navire amiral américain dans le pays sera de gagner en notoriété. Ses concurrents en France, à tribord (ETL) comme à bâbord (Data Sciences), sont prévenus : le destroyer Alteryx est en approche.
[1] Alteryx prédit que les All Blacks battront les Gallois de 8 points en finale, et les Anglais de 3 points en demi.