SageMaker Studio : AWS a lui aussi son IDE pour les pipelines ML
Las Vegas – AWS a lancé de nouveaux outils et fonctionnalités pour Amazon SageMaker, son service pour créer et déployer des modèles de machine learning. Le plus remarqué d’entre eux se nomme SageMaker Studio, un environnement de développement intégré (IDE) disponible sur le Web.
La plateforme SageMaker Studio permettrait de construire, d’utiliser et de monitorer différentes versions d’algorithmes tout en les rendant plus compréhensibles.
Durant la conférence de présentation lors de la grand-messe re:Invent à Las Vegas, Andy Jassy, le PDG d’AWS a détaillé les fonctions de 5 outils compris dans SageMaker Studio : Experiments, Model Monitor, Autopilot, Notebooks et Debugger.
« SageMaker Studio, associé à la liste de modules, apporte une meilleure gestion des cycles de vie des modèles et facilite le travail des équipes », déclare Mike Gualteri, un analyste chez Forrester.
De fait, SageMaker Studio a été présenté par Andy Jassy comme un environnement de développement totalement intégré pour le machine learning. Les utilisateurs retrouvent les capacités habituelles du service associé à de la révision de code automatisé, des notebooks, de l’entraînement simplifié et des jeux de données à un seul endroit.
SageMaker Studio : un IDE qui se veut le plus complet possible
En cela, rien de nouveau. Selon Mike Gualteri, Google et Microsoft ont des IDEs similaires. GCP prévoit d’ailleurs de baser son propre IDE sur DataFusion, son service d’intégration cloud natif. Celui-ci sera connecté à d’autres produits de la firme de Mountain View. Pour l’instant, les fonctionnalités sont accessibles séparément.
SageMaker Notebooks a pour but de faciliter la création et la gestion de notebooks Jupyter. Avec le calcul élastique, les utilisateurs peuvent en déployer en un seul clic, selon Andy Jassy. L’outil permettrait également de mieux ajuster la puissance nécessaire au fonctionnement des « cahiers de code » et d’en transférer le contenu.
Experiments automatise la collecte de paramètres d’entrée, des éléments de configuration et les résultats des modèles algorithmiques. Selon AWS, le suivi des itérations en serait simplifié. Le service doit rassembler les informations à un seul endroit et introduit une fonction de recherche pour revoir les différentes versions.
« C’est une manière beaucoup beaucoup (sic) plus simple de chercher et de collecter vos expérimentations lors de la création d’un modèle », déclare Andy Jassy.
Comme son nom le suggère, Debugger doit assister les développeurs dans la recherche de bugs et profiler leurs modèles plus efficacement. L’outil recueille et surveille les mesures clés des frameworks populaires (ici, PyTorch, Mxnet et TensorFlow). Ensuite, il fournit des indicateurs en temps réel sur leur précision et leur performance. Les équipes bénéficient potentiellement d’une meilleure compréhension des algorithmes qu’elles mettent sur pied.
Encore une fois, Debugger ne vise pas seulement les data scientists, mais aussi les non-experts.
AWS a aussi présenté un service IA nommée CodeGuru. Celui-ci faciliterait la revue de code en détectant sans intervention humaine les erreurs. L’outil serait également capable de déterminer quelles lignes d’un de ces programmes consomment le plus de mémoire et de puissance de calcul, celles qui coûtent le plus cher.
Model Monitor, en principe, sert à garder les modèles dans le droit chemin. Il tente de détecter et de réparer les dérives de concept qui sont liées à l’évolution des données et leur relation à travers le temps. À moins de les mettre à jour constamment, elles peuvent fortement influencer le niveau de précision attendue. Model Monitor doit scanner les datas et les algorithmes afin de détecter et identifier la cause de ces biais.
Databricks a également imbriqué des fonctionnalités similaires au sein de MLflow, une plateforme de création et de suivi de pipelines ML. La solution open source permet de gérer les modèles, accéder aux notebooks, connaître les dernières modifications apportées et par qui, via la fonction Model Registry. Les algorithmes sont labellisés afin de savoir s’ils sont en production ou non. GCP utilise les mêmes outils open source que Databricks et AWS (XGBoost, Apache Spark, librairies Python, etc.).
Automatiser la création de modèles
Avec Autopilot, les développeurs pourraient créer des modèles automatiquement tout en gardant le contrôle.
Selon le PDG d’AWS, Autopilot, c’est « AutoML avec un contrôle et une visibilité totale ». Essentiellement, AutoML propose un processus pour automatiser le machine learning et le développement des modèles.
Le nouveau module doit sélectionner l’algorithme le plus adapté aux jeux de données disponibles et au cas d’usage visé. Il disposerait de 50 modèles uniques qui sont classés par pertinence.
« AutoML est le futur du développement du machine learning. Je prévois que d’ici deux ans, 90 % de tous les modèles ML seront créés à l’aide d’AutoML par des spécialistes des données, des programmeurs et des business analysts », prétend Mike Gualtieri.
« SageMaker Autopilot est un “must-have” pour AWS, mais elle aidera sûrement certains éditeurs concurrents d’Amazon comme DataRobot. L’annonce du géant du cloud légitime davantage l’approche du ML automatisé », a-t-il poursuivi.
D’autres compétiteurs comme GCP, Microsoft Azure, IBM, SAS, RapidMiner, Aible, ou encore H20.ai disposent de capacités similaires, selon l’analyste de Forrester. De son côté, Alteryx propose un module nommé Assisted Modeling pour sa plateforme Designer. Avec cet outil, il est possible de générer des pipelines ML sans écrire une seule ligne de code.
Nick McQuire, vice-président du cabinet de conseil CCS Insight, considère cependant que certaines des annonces d’AWS sont vraiment innovantes.
« Studio est un bon complément aux autres produits, car le système unifié répond aux besoins des programmeurs et des data scientists. Les nouvelles fonctionnalités, particulièrement Model Monitor et Debugger sont parmi les premières sur le marché », affirme Nick McQuire.
« Malgré le fait qu’AWS arrive en retard sur ce marché, ce qu’il propose avec Studio est plutôt unique. Surtout, il positionne leur offre comme s’il s’agissait d’un IDE traditionnel avec Experiments, Debugger et Model Monitor intégré dans Studio », affirme le consultant. « C’est un bond en avant pour SageMaker et une avancée remarquable par rapport au reste du marché ».
SageMaker Studio est uniquement disponible dans la région cloud Est des États-Unis (Ohio). Pour l’instant, le Notebooks est en préversion et peut générer des problèmes de visualisation, selon le géant du cloud.
De son côté, Google a également récemment publié plusieurs nouveaux outils pour l’IA ainsi qu’une suite de produits, Google Cloud Explainable AI.