Avec Babelfish, AWS veut attirer les clients de Microsoft SQL server
AWS poursuit sa conférence virtuelle étalée sur trois semaines, l’occasion d’explorer les annonces concernant les services analytiques et de bases de données. Le géant du cloud veut attirer à lui les clients de Microsoft SQL Server sur site.
Si AWS a mis l’accent sur l’intelligence artificielle lors de la première journée de l’événement AWS Re:Invent, les responsables ont beaucoup moins insisté sur les capacités de ses services analytiques que l’an dernier. La grande nouveauté attendue en 2020, l’accélérateur matériel de requêtes pour Amazon RedShift, AQUA, ne sera finalement disponible qu’en janvier 2021. Ce « petit » retard n’empêche pas le fournisseur de vanter les performances de cette strate de mise en cache qui doit multiplier par 10 la vitesse des requêtes « par rapport à n’importe quel autre datawarehouse dans le cloud ».
Cette promesse de performance, AWS la portait également au moment d’annoncer les instances RA3, et d’en assurer l’accessibilité générale depuis avril dernier. Elles seront les hôtesses de la technologie AQUA, chargée des calculs parallèles pour les tâches de filtrage et d’agrégations de données. L’on en sait en revanche un peu plus sur l’architecture de cette couche matérielle, qui combine des processeurs maison et du stockage flash (SSD). Elle joue le rôle de transition entre des buckets S3 et les clusters RedShift associés au sein d’une même instance. En parallèle, Oracle veut prouver que ses ajustements de sa version de MySQL lui permettent de surpasser RedShift.
AWS se met à la BI en langage naturel
Pour les métiers et les data Analysts, AWS a présenté Amazon QuickSight Q, une fonctionnalité servant à requêter des données en langage naturel au sein de l’outil BI. Il suffirait de poser sa question à l’écrit pour obtenir une réponse en quelques secondes. QuickSight Q génère un modèle de données qui doit automatiquement comprendre la relation entre des informations et les demandes des utilisateurs. Il permet également de compléter des interrogations tapuscrites.
AWS défend une nouvelle fois sa technologie de data modeling adaptative qui serait, selon ses dires, supérieure à l’approche NLQ (Natural Language Query), notamment employée par SAP depuis quelques années ou ServiceNow. Il n’y aurait pas à former un corpus préalable. En outre, la construction de requêtes SQL dans QuickSight Q repose sur de l’analyse sémantique automatique. La solution ressemble à ce que l’on peut désormais retrouver dans les produits Salesforce et Tableau. « Un bon nombre de clients souhaitait obtenir un chatbot BI et cela répond à ce besoin », déclare Guillaume Marchand, Senior Solutions Architect chez AWS lors d’un débriefing des annonces.
Glue Elastic Views : une fonctionnalité ETL bienvenue
De leur côté, les développeurs et ingénieurs en data science ont le droit à un nouvel outil de transformation de données en préversion : AWS Glue Elastic Views. Il permet de combiner et de répliquer des données, depuis plusieurs data stores en langage SQL. AWS promet que Glue Elastic Views facilitera la copie des informations issues de DynamoDB, RedShift, S3 et d’Amazon Elasticsearch Service. La prise en charge de RDS et d’Aurora viendra plus tard, selon le géant du cloud.
L’outil serverless doit aider à créer des vues matérialisées de données présentes dans ces espaces de stockage, puis de cibler un ou plusieurs data stores pour emmagasiner, puis analyser ces agrégats répliqués. « Avec cette fonctionnalité, il n’y a plus besoin de Spark, de compétences recherchées pour initier un projet d’entrepôt ou de lac de données. De plus, Glue Elastic View met automatiquement à jour les données quand il y a une modification au niveau de la source » vante Guillaume Marchand.
Au mois de novembre, AWS avait présenté Glue DataBrew, un outil de préparation de données no-code associé à son service ETL. Celui-ci comprend plus de 250 transformations préconstruites, ainsi que des mécanismes de détection d’erreurs, de filtration et de normalisation de données.
Les bases de données restent au cœur de l’activité d’AWS
Mais, au vu de l’insistance d’Andy Jessy, PDG d’AWS, les bases de données représentent encore le nerf de la guerre pour le géant du cloud. En ce sens, le PDG a annoncé la préversion de la V2 d’Aurora Serverless pour MySQL 5.7.
« Les clients nous disaient souvent du bien d’Aurora Serverless, mais regrettaient la lenteur au moment de la montée à l’échelle, lors de pics de trafic, par exemple [50 secondes, N.D.L.R.]. En conséquence, beaucoup d’entre eux l’utilisaient au sein de leur environnement de test, et non en production », déplore Sébastien Stormacq, Principal Developer Advocate chez AWS.
« Nous sommes repartis de zéro avec la V2 : la montée en charge est quasi instantanée », assure-t-il.
Par ailleurs, Aurora Serverless ne supportait pas le principe de réplication multizone, la lecture des réplicats et la possibilité d’effectuer des requêtes en parallèle. Autant de capacités essentielles pour une base de données en production que la V2 prend désormais en compte. L’édition compatible avec PostgreSQL arrivera plus tard.
En outre, la préversion de Babelfish Aurora for PostgreSQL a largement attiré l’attention. Ce service, dont le nom provient du « Guide du voyageur galactique » (de Douglas Adams), est un outil d’adaptation d’applications reposant sur Microsoft SQL Server vers Aurora Postgres.
« Beaucoup de nos clients souhaitent migrer de Microsoft MySQL Server vers Aurora. Database Migration Service (DMS) permet de le faire, en revanche vous vous retrouvez coincé avec vos applications conçues pour lire et écrire en T-SQL et avec le protocole de transport spécifique employé par Microsoft. Babelfish doit simplifier cette transition », affirme Sébastien Stormacq.
Cette couche de « traduction à la volée » des requêtes MySQL doit réduire au minimum le réusinage des applications, voire l’éviter totalement. Il faudra tout de même adapter la base de données elle-même via DMS et l’outil de conversion de schéma AWS. En principe, cela demande de la lecture (450 pages de documentation) et la migration de Microsoft SQL Server vers PostgreSQL réclame d’identifier les éléments qui ne sont pas automatiquement corrigés.
Andy Jessy dénonce (encore) les pratiques de la « vieille garde »
Mais cette approche pose question, au vu des propos d’Andy Jessy, PDG d’AWS. L’année dernière, il s’en était pris plus franchement à Oracle. Lors de la mouture 2020 de Re:Invent, le PDG a davantage pointé du doigt les pratiques commerciales de Microsoft.
Andy JessyPDG, AWS
« Malgré la croissance de service managé comme RDS, il est toujours vrai qu’une majorité écrasante de bases de données relationnelles restent sur site. Elles dépendent d’éditeurs membres de la vieille garde : Oracle et Microsoft », déclare Andy Jessy.
« Ces solutions sont chères, propriétaires, promptes au vendor lock-in et les licences associées comportent des termes punitifs pour mieux vous soutirer de l’argent. Ces entreprises n’ont aucun scrupule à en changer les conditions. C’est ce qu’a fait Microsoft pour SQL Server il y a un an ou deux ans. Il a modifié la licence de SQL Server de sorte qu’il est impossible de l’utiliser en dehors de son cloud Azure. Est-ce que c’est correct pour les clients ? Non. Est-ce que c’est bien pour Microsoft ? Je pense qu’ils le croient. C’est ce dont les clients ne veulent plus et c’est la raison pour laquelle les bases de données MySQL ou PostgreSQL gagnent en popularité ».
Interrogé par LeMagIT à ce sujet, Xavier Perret, Directeur Azure, Microsoft France a préféré botter en touche. Il affirme tout de même que Microsoft observe « un vrai mouvement de fond de migration de données, sûrement accentué par la crise sanitaire, que tout fournisseur de cloud embrasse pour accompagner les clients dans un environnement cloud, afin de créer de la valeur et désiloter les données ».
AWS s’inscrit pleinement dans ce mouvement. Là intervient une étrange dualité, un paradoxe même. Babelfish Aurora For PostgreSQL est la version managée d’un outil open source dédié à la partie applicative accolée à un SGBD propriétaire, vers la distribution propriétaire d’une base de données open source.
Cependant, Andy Jessy oublie de rappeler que la filiale cloud qu’il dirige a tendance à modifier le code source des projets libres ou l’enveloppe qui l’entoure. L’entreprise affirme vouloir « élever les performances au niveau des attentes des entreprises » tout en assurant conserver « 100 % de compatibilité » avec les versions d’origine, en tout cas pour PostgreSQL et MySQL.
En décembre 2019, un article du New York Times dénonçait l’exploitation des licences libres par AWS sans contribution en retour. Les éditeurs traditionnellement fervents de l’open source, eux, remarquent que les géants du cloud les poussent à sanctuariser leurs produits avec des clauses de non-concurrence, les éloignant de leur engagement de départ.