Avec DataZone, AWS s’équipe d’un service câblé pour l’approche Data Mesh
AWS a lancé Amazon DataZone, un service de gestion des données qui doit permettre aux clients de gouverner, cataloguer et partager les données au sein de leur organisation. Une démarche alignée avec l’approche Data Mesh, un concept de plus en plus populaire.
Le géant du cloud a dévoilé cette solution pour la première fois lors de re:Invent, sa conférence annuelle des utilisateurs, en novembre 2022 ; il l’a mise en préversion publique en mars 2023 et l’a rendue accessible à tous le 4 octobre dernier.
L’objectif d’Amazon DataZone est de fournir un environnement unique, dans lequel les data scientists, les ingénieurs, développeurs ainsi que les analystes et autres consommateurs de données peuvent accéder et partager les données de leur entreprise de manière gouvernée, afin de prendre collectivement des décisions qui mènent à des actions, selon AWS.
Récemment, AWS a consacré ses annonces sur l’IA générative, tout comme ses concurrents et partenaires.
En juillet, le géant du cloud a mis en avant sa plateforme Bedrock, qui référence différents modèles de langage disponibles par API. Le même mois, AWS a dévoilé deux nouveaux outils d’IA générative dédiés à QuickSight, sa suite BI.
Amazon DataZone, quant à lui, est présenté comme un service de gestion de données traditionnel basé sur le cloud, conçu pour aider les clients à gouverner et à opérationnaliser les données à grande échelle. AWS le met initialement à la disposition de tous les clients dans 11 de ses régions, dont trois régions américaines et trois régions européennes. Ceux-ci peuvent commencer par un essai gratuit qui inclut 50 usagers pendant trois mois.
La tarification débute par un abonnement mensuel de 9 dollars par utilisateur pour les 500 premiers utilisateurs, de 8,10 dollars par usager pour les 500 suivants et de 7,20 dollars par mois par usager au-delà de 1 000 comptes. Chaque abonnement mensuel (il n’y a pas de réduction pour les engagements à long terme) comprend 20 Mo de stockage de métadonnées, 4 000 requêtes et 0,2 unité de calcul.
Un outil de gouvernance, de catalogage et d’accès aux données en libre-service
Amazon DataZone propose quatre fonctionnalités principales :
- Un portail de données en dehors de la console de gestion AWS, sous la forme d’une application web où les usagers authentifiés peuvent trouver, inventorier et travailler avec des données en libre-service.
- Un catalogue de données permettant aux clients de caractériser les données dans l’ensemble de leur organisation, en vue de faciliter la recherche de données pouvant être opérationnalisées pour former des modèles, alimenter des tableaux de bord et éclairer les décisions.
- Un environnement dans lequel les utilisateurs peuvent créer des groupes de personnes, des ressources de données et des outils d’analyse pour une analyse et une prise de décision collaboratives.
- Un contrôle d’accès et d’autres mesures de gouvernance qui définissent les paramètres permettant de déterminer qui peut accéder à certaines données et quels employés sont propriétaires des données pouvant être analysées à la demande d’autres personnes.
Les plus observateurs l’auront remarqué : le service n’est pas vendu à l’heure ni en fonction de grandes capacités de stockage. En réalité, la plateforme de gouvernance de données s’intègre nativement avec les services AWS, dont Amazon RedShift, Athena, QuickSight, Glue et Lake Formation. Dans un langage plus technique, il s’agit de lister des sources et des produits de données qui sont accessibles à des consommateurs après une phase d’autorisation pour analyse depuis RedShift, ou pour visualisation depuis QuickSight. Il est prévu qu’elle s’ouvre vers l’extérieur. Pour l’instant, il est possible d’importer des données et des métadonnées depuis des sources on premise ou tierces vers des bucket Amazon S3, vers RedShift ou Athena.
Selon Stephen Catanzano, analyste chez Enterprise Strategy Group, une filiale de Techtarget, également propriétaire du MagIT, Amazon DataZone est un ajout important à la plateforme AWS, car il promet la collaboration de différents rôles autour de données réutilisables.
Stephen CatanzanoAnalyste, Enterprise Strategy Group
« Il s’agit d’une amélioration significative qui permet aux utilisateurs de partager des ressources de données au sein de DataZone [afin qu’ils puissent] être plus efficaces », déclare-t-il. « Un utilisateur peut créer des données [et] les ajouter à un catalogue, et d’autres peuvent ensuite les utiliser. Le catalogage fait partie d’un vaste mouvement visant à favoriser la réutilisation des données plutôt que leur recréation ».
En outre, le service devrait rendre les travailleurs du secteur des données plus efficaces en créant un environnement dans lequel les données sont faciles d’accès et la qualité est renforcée par des mesures de gouvernance, poursuit l’analyste.
« Cela devrait améliorer la qualité des données et réduire le temps nécessaire entre leur production et leur utilisation », anticipe-t-il. « Tout ce qui concerne les données évolue vers le temps réel ou presque. Si quelqu’un constate une demande inattendue pour une information, DataZone lui permet de lancer une campagne et de la diffuser rapidement. C’est très précieux. Cela doit éliminer les étapes manuelles et augmenter la réutilisation des données et la collaboration ».
Matt Aslett, analyste chez Ventana Research, souligne également l’importance d’Amazon DataZone pour les clients d’AWS. Il le considère comme l’un des produits les plus importants présentés par le géant technologique à l’hiver dernier.
Plus précisément, le service pourrait fournir certaines des fonctionnalités nécessaires à la mise en œuvre d’une approche Data Mesh.
Une stratégie Data Mesh doit rendre possible la décentralisation d’une partie de la gouvernance des données par des responsables au sein d’une unité commerciale ou par des experts métiers.
En cela, l’accès à un catalogue de données qui liste les actifs de l’entreprise est essentiel, selon Matt Aslett. « C’est un outil indispensable pour la bonne gouvernance des données ».
Une enquête de Ventana Research a montré que les trois quarts des entreprises dénombrant plus de 100 utilisateurs de catalogues de données ont confiance dans la capacité de leur organisation à administrer et à gérer les données dans l’ensemble de l’entreprise. À l’inverse, un peu plus de la moitié des organisations comptant 100 utilisateurs de catalogues de données ou moins affichent le même niveau de confiance.
AWS n’est pas le seul à vouloir répondre à la mise en place d’une stratégie Data Mesh. Snowflake, Confluent, Dremio, Collibra sont quelques-uns des acteurs se positionnant sur cette tendance qui devient de plus en plus une réalité au sein des organisations.
Un besoin d’automatiser certaines tâches de gouvernance de données
Lors de sa première présentation en avant-première, Amazon DataZone ne disposait pas encore de certaines des fonctionnalités qu’il propose désormais, selon AWS.
Par exemple, le catalogue de données peut à présent être personnalisé avec la génération automatique de métadonnées. Un algorithme de machine learning peut nommer les actifs de données et les colonnes. En outre, parmi d’autres fonctionnalités, certaines capacités de partage de données gouvernées, telles que l’approbation de l’abonnement pour l’accès à certaines données, ont été ajoutées au cours de la bêta.
À l’avenir, M. Catanzano espère qu’AWS continuera à automatiser certaines tâches fastidieuses de la gestion de données.
« Comme tout le monde [AWS devrait] intégrer l’IA, supprimer les processus manuels et augmenter la productivité », avance Stephen Catanzano. « Il est fort probable qu’à l’instar de [DataZone], nous verrons ces gains de productivité s’étendre à l’ensemble des entreprises. »
En clair, les éditeurs concurrents et les entreprises elles-mêmes souhaitent automatiser une partie de cette gouvernance.