Data prep, Feature Engineering, MLOps : AWS gonfle les capacités de SageMaker
AWS profite de son événement virtuel Reinvent pour annoncer plusieurs nouveautés réservées aux data scientists. Outre des instances dotées de puces dédiées à l’IA, le géant du cloud souhaite renforcer son service managé SageMaker, avec des briques de préparation de données, de Feature Engineering et de MLOps.
Le géant du cloud a lancé son événement AWS Reinvent le 1er décembre. Malgré la virtualisation de cet événement se déroulant habituellement à Las Vegas, AWS n’a pas dérogé à sa règle et nous a livré une conférence d’une durée de trois heures bourrées d’annonces plus ou moins importantes.
Même si la séparation traditionnelle entre la présentation de nouvelles instances et de services reste de rigueur, l’on retiendra un fort accent mis sur l’intelligence artificielle.
De nouvelles puces dédiées au machine learning
Parmi les nouveautés de la gamme EC2, AWS a présenté AWS Trainium, une puce dédiée à l’entraînement des modèles de machine learning basée sur l’architecture Graviton 2. Cette solution offrirait « plus de Teraflops que n’importe quelle autre instance ML dans le cloud ». Disponible en 2021, Trainium complétera Inferentia, un service consacré à l’inférence des algorithmes, et sera compatible avec TensorFlow, MXnet et Pytorch. Les instances dotées de circuits Trainium seront également accessibles depuis Amazon SageMaker. AWS promet déjà qu’Inferentia baisserait le prix d’inférence de 45 % et accorderait 30 % de débit supplémentaire par rapport à une unité EC2 G4 (basé sur des GPU). Trainium s’inscrit dans une voie similaire.
Julien SimonÉvangéliste technique, AWS
« L’idée c’est d’innover sur l’infrastructure et d’offrir le meilleur rapport coût-performance à la fois pour l’inférence et maintenant l’entraînement. Nous allons en attendre d’en savoir davantage, mais c’est une bonne nouvelle pour les clients qui veulent optimiser le ratio temps - coûts de formation » vante Julien Simon, évangéliste technique chez AWS, au cours d’un débriefing de la conférence.
Pour autant, le géant du cloud ne souhaite pas couper les ponts avec les fabricants de semiconducteurs. Andy Jessy, CEO d’AWS, a également présenté des instances propulsées par les microprocesseurs Gaudi par Habana Labs, un concepteur acquis par Intel en 2019. Chaque instance pourra disposer de « huit accélérateurs » Gaudi. AWS promet « un rapport qualité-prix étant jusqu’à 40 fois supérieur à celui des machines EC2 basées sur des GPU pour l’entraînement d’algorithmes ». Là encore, le géant du cloud fournira un SDK et des outils qui s’intégreront avec les frameworks TensorFlow et Pytorch. En clair, il faudra adapter un tant soit peu les modèles auparavant entraînés à l’aide de GPU. Ces unités seront également accessibles depuis AWS Deep Learning AMI, Amazon EKS et ECS, ainsi que depuis Amazon SageMaker.
AWS complète son environnement de data science
Justement, SageMaker a été au cœur des annonces d’Andy Jessy. Le PDG a dévoilé trois nouvelles fonctionnalités intégrées dans cet écosystème dédié à la data science.
Amazon SageMaker Data Wrangler est un service de préparation et d’exploration de données. « Il est de notoriété publique que cette phase représente 80 % du travail du data scientist », commente Julien Simon. SageMaker Data Wrangler doit fournir près de 300 types de transformations de données sur étagère pour rapidement modifier, normaliser ou bien combiner des attributs (features) à travers une interface graphique. Il est possible de puiser les informations dans les sources AWS comme S3, Athena, Redshift et AWS Lake Formation dans différents formats (CSV, Parquet, tables de SGBD, etc.). « Vous pouvez ajouter vos transformations avec Python, Pandas ou PySpark SQL, puis les exporter pour l’entraînement de modèles, pour la production en un clic vers du code Python, un notebook SageMaker Processing, ou encore dans SageMaker Feature Store », explique Julien Simon. SageMaker Data Wrangler fournit un éditeur de flux pour automatiser les exports ou les imports de données.
L’outil comprend des templates de visualisation, préconfigurés pour détecter rapidement des valeurs extrêmes ou des erreurs potentielles. Cela doit faciliter l’analyse des features afin d’accélérer la conception des modèles ML et d’optimiser leur performance.
Attention, il ne faut pas confondre ce service managé avec le projet AWS Data Wrangler, une solution open source qui offrait des capacités similaires sans interface graphique.
Le Feature Engineering façon AWS
Tout comme GCP, AWS a annoncé son propre Feature Store, un espace de stockage et de gestion des attributs rattachés à SageMaker Studio. « Une fois l’ensemble de données enrichi, vous pouvez entreposer les features, soit sur S3, “hors ligne”, soit en ligne, et les invoquer au moment de l’entraînement ou de l’inférence. C’est-à-dire qu’au moment d’appeler votre API SageMaker pour une prédiction, vous pouvez obtenir vos features préparées », décrit l’évangéliste. « Feature Store règle les problèmes liés à la gestion manuelle des attributs », considère-t-il.
Les features sont indexés grâce à différentes métadonnées (étiquettes, provenance, nom, type de données). Le dépôt comprend une interface visuelle pour les rechercher et potentiellement les découvrir, à l’instar d’un data catalog. L’outil doit faciliter la standardisation des attributs en préparant des définitions (jusqu’à 2 500) qui régissent des groupes de features. Un éditeur JSON permet de spécifier les noms et les types de données associés aux attributs.
Julien SimonÉvangéliste technique, AWS
Feature Store peut être intégré avec SageMaker Pipelines. « Tout le monde va le baptiser DevOps pour SageMaker et ça me va », déclare Julien Simon au sujet de ce nouveau venu. « Ce service offre la capacité d’automatiser vos pipelines preprocessing, d’entraînement et de déploiement », indique-t-il.
Lors de la conférence d’introduction, Andy Jessy a évoqué les fonctionnalités de l’outil pour définir chaque étape d’un workflow de machine learning. En outre, il fournit des templates préconfigurés personnalisables, à éditer depuis l’IDE Studio, et peut réaliser des appels à Experiments, un système de gestion de versions dédié aux modèles. « Cela permet de réutiliser et de ré exécuter les pipelines, mais également l’apport d’une vision MLOps pour les équipes affectées au déploiement en production. Cela répond au problème numéro 1 dont me parlent les clients aujourd’hui », assure l’évangéliste technique.
Pipelines complète les fonctionnalités de SageMaker présentées l’année dernière : Studio, Experiments, Model Monitor, Notebooks ou encore Debugger. Julien Simon ajoute qu’il doit fournir un environnement commun pour les data scientists et les Ops.
En ce sens, SageMaker Pipelines dispose d’un système de suivi automatique des modèles via des pistes d’audit pour chaque étape, de la préparation des données à l’inférence d’un algorithme. La conférence dédiée au machine learning, prévue le neuf décembre, devrait compléter ce tableau avec de possibles annonces et des précisions quant à celles présentées cette semaine.
SageMaker gagnerait en traction
L’année dernière, certains analystes saluaient l’évolution de SageMaker et le fait qu’AWS s’apprêtait à rattraper son retard sur ce marché. Avec les trois nouvelles fonctionnalités, le géant du cloud s’alignera dès 2021 sur les offres des acteurs comme Databricks, Datarobot ou encore Dataiku.
GCP propose des capacités similaires, mais cela demande d’assembler plusieurs services, alors que les intervenants cités ci-dessus déroulent un environnement de data science. À ceci près qu’avec sa force de frappe et grâce à l’écosystème de partenaires consultants et intégrateurs, SageMaker gagne en traction auprès des entreprises déjà référencées chez AWS. Par exemple, les data scientists de SNCF Réseau recourent de plus en plus à SageMaker. La plateforme aurait séduit « des dizaines de milliers de clients » dont l’Olympique de Marseille, Veolia, ou encore le groupe pharmaceutique Roche.
Le fait qu’AWS a appliqué une réduction de prix sur les instances associées, en octobre dernier, devrait amplifier cette adhésion. Cette baisse pourrait également résulter d’une demande des utilisateurs existants, même si une étude réalisée par le géant du cloud indique que le service managé diminue de 54 % le coût total de possession sur trois ans, par rapport à l’emploi de clusters EC2 et EKS hébergeant une solution sur mesure.