Ar_TH - stock.adobe.com
AWS unifie IA, analytique et gouvernance de données… dans SageMaker
Le service est désormais une plateforme unifiée comprenant un catalogue de données, un lakehouse et des intégrations avec d’autres services de gestion de données.
AWS a présenté mardi une version réimaginée de SageMaker. Il entend faire évoluer ce service managé consacré à l’entraînement et le déploiement de modèles de machine learning en une plateforme unifiée pour la gestion des données, l’analytique et le développement de l’IA.
La nouvelle version de SageMaker a été dévoilée lors d’AWS re:Invent 2024, une conférence organisée par le géant technologique à Las Vegas. La version actualisée de SageMaker est en disponibilité générale à l’exception d’Unified Studio, qui est en préversion et dont la disponibilité générale est prévue pour 2025.
Selon David Menninger, analyste chez Ventana Research, une filiale d’ISG, AWS est dans une course féroce contre ses compatriotes géants de la technologie, Google Cloud et Microsoft, pour fournir aux clients des plateformes unifiées pour les données et l’IA.
AWS a été classé légèrement devant Google Cloud et Microsoft dans un récent guide des acheteurs d’ISG, note-t-il. Une fois disponible, Unified Studio, de concert avec les autres nouvelles fonctionnalités qui composent la nouvelle version de SageMaker, devrait aider AWS à renforcer sa position.
Se mettre à niveau de la concurrence
« Tous les fournisseurs de services cloud et de gestion de données s’efforcent de fournir une plateforme unifiée pour les données et l’IA », rappelle Dave Menninger. « Ils ajoutent tous des capacités à leurs plateformes, et le marché restera concurrentiel. Mais ces nouvelles annonces amélioreront les évaluations d’AWS une fois qu’elles seront en disponibilité générale. ».
Google s’est lancé le premier avec BigLake, suivi de Microsoft avec OneLake et, comme à son habitude, AWS a pris le temps de proposer une solution équivalente. Tous cherchent à faire une chose : prendre des parts de marché à Snowflake et Databricks. Même si les deux acteurs indépendants s’appuient sur les services IaaS et PaaS de ces fournisseurs, ils ont su convaincre plusieurs dizaines de milliers de clients de ne plus utiliser massivement BigQuery, Redshift ou Azure Synapse.
En ce sens, Unified Studio doit connecter les capacités de gestion de données, d’analyse et de développement d’IA d’AWS qui étaient auparavant disparates. En outre, elle comprend un catalogue de données pour fournir des capacités de gouvernance, un data lakehouse pour unifier les données précédemment stockées dans des lacs, des entrepôts et des bases de données, ainsi que des intégrations qui simplifient l’accès aux données dans des applications tierces.
Kevin PetrieAnalyste, BARC US
Dans le détail, Unified Studio chapeaute AWS Glue pour l’intégration des données, EMR pour le traitement des données, Redshift, DynamoDB (en préversion) et S3 pour le stockage des données, et Bedrock pour le développement de l’IA générative.
Le nouveau catalogue SageMaker d’AWS, construit sur le service de catalogage de données Amazon DataZone, propose aux administrateurs de définir et de mettre en œuvre des politiques de gouvernance qui garantissent l’utilisation appropriée des données et des actifs d’IA de leur organisation. Par exemple, des autorisations personnalisées peuvent être définies et appliquées aux produits de données, aux produits d’IA, aux jeux et aux sources de données afin de garantir que les données restent sécurisées et conformes.
Bien que bénéfique, SageMaker Catalog présente une lacune importante – tout comme les catalogues de données de Google Cloud et de Microsoft – selon Kevin Petrie, analyste chez BARC US. « Le problème est qu’AWS, comme Google et Azure, ne s’intègre pas de manière adéquate aux environnements hybrides, hétérogènes et multicloud qui sont prédominants dans les entreprises modernes, et ne les prend pas en charge », note-t-il. « Les capacités du catalogue sont limitées à cet égard ».
SageMaker Lakehouse, le nerf de la guerre
Quant à SageMaker Lakehouse, il doit unifier les données stockées dans les lacs de données formés sur les espaces de stockage objet S3 et les entrepôts de données Redshift. L’objectif reste le même : briser les silos de données. La fonction est compatible avec Apache Iceberg, qui est le format de stockage de table ouvert le plus populaire du marché. Ainsi, les clients d’AWS auront accès à leurs données depuis Unified Studio pour entraîner et développer des modèles, puis déployer des applications d’IA, ainsi que créer des produits de données plus traditionnels tels que des rapports et des tableaux de bord.
La compatibilité avec Apache Iceberg est peut-être la caractéristique la plus importante de SageMaker Lakehouse, selon Dave Menninger. Apache Iceberg permet à SageMaker Lakehouse d’interagir avec les outils d’autres fournisseurs compatibles avec le format de données. Par exemple, le service est déjà compatible avec BigQuery, MySQL, PostgreSQL et Snowflake en préversion. Cela doit réduire la nécessité de déplacer ou de répliquer les données.
« Apache Iceberg bénéficie d’un soutien massif sur le marché, et ce pour de bonnes raisons », avance-t-il. « Moins de mouvements de données signifient moins de coûts et moins d’efforts. Moins de redondance des données signifie un meilleur contrôle et une meilleure gouvernance des données. Les entreprises se rapprocheront d’une source unique de vérité ».
Le format de données Iceberg est également très apprécié pour sa portabilité. Or le fait que le catalogue de données et le Lakehouse d’AWS s’appuient sur le metastore AWS Glue et sur Lake Formation – et non une brique open source comme Polaris – pose un risque de verrouillage auprès du fournisseur.
Outre la mise à jour de SageMaker, AWS a lancé de nouvelles intégrations. Elles promettent d’éliminer les charges de travail traditionnelles d’extraction, de transformation et de chargement (ETL) de données en provenance d’applications SaaS dans les bases, lacs et maintenant entrepôts de données.
Ces intégrations dites « zéro ETL » où la complexité de la réplication (même temporaire) est masquée sont censées simplifier la capture de données à partir d’applications telles que SAP et Zendesk. Ensuite, il s’agit de les transférer dans Redshift, SageMaker Lakehouse et une multitude de bases de données AWS, telles qu’Amazon Aurora et RDS. À la clé, AWS assure que cela réduit les coûts et la complexité de concevoir et de maintenir des pipelines de données.
Distinguer SageMaker de Bedrock
Pour rappel, SageMaker a été lancé en 2017. Depuis, AWS l’a régulièrement modernisé, notamment avec SageMaker JumpStart pour simplifier l’accès aux modèles ML préentraînés en 2020, de nouvelles fonctionnalités pour l’entraînement de modèles en 2021, et des outils de gouvernance et de données géospatiales en 2022.
AWS fournit également Bedrock, un service plus spécifiquement adapté au développement d’applications et à l’inférence de modèles d’IA générative sur étagère. Le géant du cloud s’était d’ailleurs senti obligé de rédiger une explication, pour des clients sans doute confus par la présence de plusieurs services managés aux usages d’apparence identique. De fait, le fine-tuning de grands modèles de langage se fait depuis SageMaker, qui inclut les briques pour préparer les données, lancer l’entraînement, gouverner les modèles, les suivre dans une approche MLOps, les inférer, expérimenter, construire les pipelines et les superviser.
Autre élément sûrement perturbant pour certains clients, SageMaker Unified Studio intègre Amazon Q Developer. Amazon Q est une gamme d’assistants propulsés par l’IA générative. Q Developer est consacré à l’aide à la programmation : génération, explication et documentation de code, création de tests unitaires, etc. Ici, les usagers pourront demander des détails sur la découverte de données, générer du code applicatif ou des modèles, des instructions SQL, d’intégrer des données, etc.
Une unification nécessaire, mais des trous dans la raquette
Pour autant, étant donné que les entreprises utilisent une myriade de plateformes pour ingérer, intégrer, préparer et analyser des données – y compris pour développer des données et des produits d’IA – toutes les mesures que des fournisseurs tels qu’AWS peuvent prendre pour rendre leurs outils plus interopérables les uns avec les autres sont importantes, selon Dave Menninger.
David MenningerAnalyste, Ventana Research
« L’unification des données et des processus analytiques, y compris l’IA, est un véritable défi aujourd’hui », déclare l’analyste. « Il y a tout simplement trop d’outils et de technologies qui doivent être intégrées, même lorsque vous travaillez avec un seul fournisseur. Tout ce que les fournisseurs de logiciels peuvent faire pour réunir tous ces composants sera une amélioration bienvenue. »
« Plus vous pouvez entremêler les types de modèles et les types de données, plus vous pouvez enrichir vos résultats analytiques et enrichir les flux de travail de l’entreprise », déclare de son côté Kevin Petrie. « Il est donc essentiel de réduire le nombre d’outils et de plateformes que les entreprises utilisent pour gérer des données et des analyses à multiples facettes. AWS fait un bon pas en avant à cet égard ».
Mais la refonte de SageMaker laisse des trous dans la raquette, selon l’analyste de BARC US. « Cette annonce concerne les cycles de vie des données et des modèles », résume-t-il. « Je serai intéressé de voir comment AWS aide les clients à optimiser le cycle de vie des applications et l’intégration de ce cycle à ceux consacrés à la gestion des données et des modèles ».
Dave Menninger, quant à lui, affirme que les intégrations zéro ETL avec les applications SaaS sont intéressantes, mais souligne qu’elles n’ont de valeur que si elles couvrent les besoins des entreprises en la matière. Pour l’heure, AWS n’a cité que SAP et Zendesk.
« Il serait extrêmement utile de pouvoir appliquer ces capacités aux principales applications ERP, CRM, HCM et autres que les entreprises utilisent aujourd’hui », conclut Dave Menninger.