AWS veut faciliter l’analytique sur son data warehouse Redshift

AWS a présenté plusieurs améliorations et de nouveaux services afin d’optimiser l’analytique dans son cloud. L’éditeur mise sur son service de data warehousing Redshift.

Las Vegas – AWS a orienté ses annonces autour des nouveaux services pour Redshift, son entrepôt de données dans le cloud. Amazon a d’abord présenté la préversion de Redshift Federated Query, une couche qui permet d’émettre des requêtes au sein d’un cluster Redshift, d’un data warehouse hébergé sur S3 et au sein de bases de données PostgreSQL de RDS et d’Aurora. En principe, le service supprime le besoin de faire usage d’un service d’ETL pour transférer les données dans l’entrepôt et ainsi réduire la consommation en bande passante.

Le 26 novembre, une semaine avant son salon re:Invent, AWS a lancé un service similaire pour Amazon Athena. En utilisant les connecteurs vers les sources de données disponibles depuis AWS Lambda, Federated Query permet d’exécuter une requête sur HBase sur EMR, Dynamo DB, MySQL, RedShift, ElastiCache (Redis) et Amazon Aurora.

Fédérer les requêtes à travers l’ensemble des bases de données de l’entreprise

Dans les deux cas, cette couche doit faciliter l’analyse de données dans des environnements qui au départ ne sont pas régis par le même data model.

« Cela permet de développer des applications qui appellent plus facilement les données sans intégration manuelle. Je pense qu’AWS va formaliser ce concept de la même manière que Microsoft l’a fait avec Synapse », déclare Donald Feinberg, Vice-président Data & Analytics chez Gartner. En fin de compte, il s’agit de rassembler les fonctionnalités de data warehousing et d’analytique, voire de Machine Learning au sein d’un seul produit cloud.

« Snowflake, Google, Oracle, SAP avec SAP HANA Cloud Services, Cloudera et sa CDP vont dans la même direction. AWS aura peut-être du retard sur les autres, mais il proposera sans doute une solution du même acabit », affirme l’analyste de Gartner. De son côté, Databricks propose la Unified Analytics Data Platform.

De même, Data Lake Export est un nouvel outil pour exporter les données en provenance de Redshift vers un bucket S3 au format orienté colonnes Apache Parquet. D’après la documentation du fournisseur, les clients peuvent dès aujourd’hui sauvegarder le résultat d’une requête réalisée sur Redshift et la stocker sur S3 pour l’analyser ensuite avec des services tels que Spectrum, SageMaker, Athena, ou EMR. La fonctionnalité est compatible à partir de la release 1.0.10480 de Redshift.

Le hardware au service de l’analytique

L’entrepôt de données doit maintenant être au service des applications analytiques et de machine learning. Mais pour cela, il faut assurer un niveau de performance de haut niveau. En ce sens, Amazon a mis en avant les instances Redshift RA3. Celles-ci reposent sur l’architecture Nitro et doivent fournir une bande passante élevée, des SSD hautes performances pour la mise en cache des données.

L’instance ra3.16xlarge dispose de 48 vCPUs, 384 Go de mémoire vive et jusqu’à 64 To de stockage. Il est possible de monter des clusters de 2 à 128 instances, ce qui peut représenter 8 Po de données compressés au total. RA3 est disponible aux États-Unis (Ohio, Virginie du Nord, Californie du Nord, Oregon), en Asie Pacifique (Séoul, Singapour, Tokyo, Sidney) et en Europe (Francfort, Irlande, Londres). L’offre permettrait de séparer la puissance de calcul du stockage et de multiplier les performances par 2 par rapport à une instance Redshift DS2 pour un prix équivalent.

Concernant ce sujet, AWS tient un double discours. Selon Andy Jassy, la séparation entre stockage et calcul n’est pas toujours bénéfique à large échelle. Les tâches analytiques et de machine learning peuvent saturer le réseau parce qu’il faut souvent migrer les données d’un service à un autre. Pour éviter ce goulet d’étranglement le géant du cloud mise sur AQUA. L’Advanced Query Accelerator est un service en préversion relié à Redshift prévu pour accélérer les requêtes.

« Aqua est particulièrement innovant parce que nous utilisons notre processeur maison Nitro et des puces FPGA au niveau de la couche de mise en cache. Il n’y a plus besoin de bouger autant de données à travers le réseau. Une partie du processus de calcul se fait au niveau du stockage au lieu de se faire depuis une couche différente », déclare Herain Oberoi, directeur général bases de données, analytique et blockchain chez AWS. AQUA permettrait d’accélérer les tâches d’agrégation et de filtrage de données dans les data warehouse Redshift. Le service sera disponible en 2020.

Amazon ElasticSearch Service (à partir de la version 6.8) dispose d’une couche stockage tiède et chaude avec UltraWarm. Selon le géant du cloud, cela ferait baisser drastiquement le coût d’hébergement des logs historiques. Il affirme qu’il est possible de stocker jusqu’à 900 téraoctets en réduisant la facture de 90 % par rapport à des offres similaires. Le service vérifie les blocs de données afin de déterminer leur fréquence d’utilisation.

Si les données ne sont pas souvent appelées, elles sont stockées dans un bucket S3. Là encore, le système Nitro sert pour le cache et le lancement de requêtes. UltraWarm est uniquement disponible en préversion aux États-Unis et demande également que les domaines soient déployés dans trois zones de disponibilité. Pour la partie hot tiering, le client doit provisionner des instances EBS. UltraWarm est facturé à l’usage, même si une instance fait 20 To et qu’elle n’est pas totalement utilisée. Les nœuds se paient à l’heure.

Si AWS ouvre son cloud à d’autres bases de données et améliore ses services analytiques, il y a toujours la crainte de se retrouver enfermé dans l’écosystème Amazon. Les annonces faites lors de Re:Invent tendent à prouver que les clients seraient invités à rester chez le fournisseur.

Des outils toujours plus puissants, des clients toujours plus dépendants

Le multicloud ne serait pas une option envisagée chez AWS. Andy Jassy n’a pas mentionné une seule fois le terme lors de la keynote d’ouverture, et a affirmé lors d’une conférence de presse qu’il voyait difficilement comment des infrastructures très différentes pourraient communiquer ensemble à cet instant T. « Je peux imaginer un futur où les fournisseurs de cloud collaborent de plus en plus, mais vous devez établir d’abord des fondamentaux », affirme-t-il.

« Je peux imaginer un futur où les fournisseurs de cloud collaborent de plus en plus, mais vous devez établir d’abord des fondamentaux. »
Andy JassyPDG, AWS

Pour justifier cette approche « monocloud », de nombreux responsables d’AWS interrogés par LeMagiT (sinon tous) reprennent à leur compte les arguments exprimés dans une note de blog par Mark Schwartz, « Enterprise Strategist » chez AWS. L’ancien DSI évoque son expérience passée. « Lorsque j’ai envisagé d’utiliser plusieurs fournisseurs de cloud computing pour notre infrastructure et nos plateformes, j’ai rapidement renoncé à l’idée. J’avais peur que cela ne ralentisse notre transformation, alors que la vitesse était le facteur le plus important pour moi », écrit-il.

« Le multicloud vous donne du choix et permet de ne pas se sentir enfermé auprès d’un éditeur. Mais je ne vois pas d’entreprises qui migrent leurs données d’un cloud à un autre de manière régulière », déclare Donald Feinberg. « Avec Amazon, un client pourra profiter de la complémentarité des services. Il ne sera pas en capacité de migrer son application après coup sans perdre des fonctionnalités, mais je le répète les sociétés ne le font pas. Si les fournisseurs de cloud commencent à augmenter le prix des services, cela peut changer. Je considère que cela n’arrivera pas. Le cloud a un modèle très différent de l’IT traditionnel », conclut l’analyste de chez Gartner.

 

Pour approfondir sur Outils décisionnels et analytiques