Helene - stock.adobe.com
BigQuery Omni : Google Cloud se met lui aussi à la fédération de requêtes multicloud
Google Cloud a annoncé la disponibilité prochaine de BigQuery Omni, un moyen de requêter les données à travers plusieurs clouds sans les migrer.
Lors du lancement de la conférence virtuelle Google Cloud Next OnAir, le géant du cloud a présenté BigQuery Omni, une extension multicloud de sa plateforme analytique.
BigQuery est d’abord un entrepôt de données sur lequel Google a placé un moteur de requêtes nommé Dremel. Actuellement, un utilisateur doit d’abord migrer les données si elles résident dans d’autres clouds, d’autres infrastructures ou d’autres logiciels SaaS. La page de présentation du produit met notamment en avant la possibilité de transférer des données de Redshift et de Teradata vers Google Cloud. Cette capacité incarnée par le Data Transfer Service doit permettre d’extraire les informations de plus de 100 applications SaaS interne à GCP ou externe.
C’est une manière de « briser les silos de données » tout en favorisant le stockage et l’exécution des workloads sur Google Cloud. Pour autant, cela ne répond pas totalement aux attentes des clients.
« Le problème lorsque vous êtes dans plusieurs clouds, c’est que les données résident dans des silos », déclare Debanjan Saha, directeur général et vice-président, Data Analytics chez Google Cloud lors d’une conférence de presse. « Si vous voulez faire des analyses sur ces données en silo, vous devez déplacer les données d’un cloud à l’autre, ce qui est à la fois lourd et coûteux ».
Avec BigQuery Omni, le géant de la technologie conserve son credo, mais répond aux attentes des clients qui ne veulent pas s’enfermer au sein de ses infrastructures. Le service est pour l’instant en alpha privé et le fournisseur de cloud n’a pas encore de fenêtre de disponibilité.
Techniquement, BigQuery Omni se dote d’un control plane hébergé sur Google Cloud placé par-dessus plusieurs instances dans GCP, AWS (S3) et bientôt Azure.
Dans cette configuration, les clusters de calcul de l’engin Dremel sont séparés de la couche de stockage. Pour exécuter les requêtes dans d’autres clouds, GCP s’appuie sur Anthos, sa plateforme permettant d’orchestrer des containers et d’exécuter des services Google en mode multicloud. Chez AWS, les instances de stockage objet S3 des clients communiquent via AWS Direct Connect aux clusters de calcul Dremel situés dans la même région cloud AWS, mais gérés par GCP. Chez Google, les clusters Dremel exécutent les calculs comme à l’accoutumée, c’est-à-dire en mode serverless.
Répondre aux besoins des clients qui font le choix du multicloud
Ce qui change c’est que l’utilisateur lance une seule requête SQL depuis le control plane – une même interface utilisateur – pour interroger simultanément les données hébergées dans plusieurs clouds. Il n’y aurait même pas besoin de les convertir puisqu’Omni prend en charge les formats Avro, CSV, ORC et Parquet. Il faudra cependant penser à configurer les rôles IAM pour supporter les communications entre clouds.
« Avec BigQuery Omni, Google Cloud affirme avec force qu’il prend très au sérieux la gestion des données multicloud et intercloud », assure Adam Ronthal, vice-président de la recherche chez Gartner.
Selon l’analyste il s’agit d’atteindre des clients de plus en plus adeptes du multicloud. « La majorité des clients dans le cloud (80 %) utilisent les services de plus d’un fournisseur », ajoute-t-il. D’ailleurs cette affirmation est directement reprise par la communication de Google pour justifier la future disponibilité de BigQuery Omni.
Ce serait également un moyen de damer le pion aux éditeurs indépendants qui, historiquement, affichent une approche agnostique envers les fournisseurs de cloud. C’est le cas de Snowflake qui propose justement un moyen d’exécuter des requêtes à travers plusieurs clouds et services de bases de données.
Adam RonthalVP recherche, Gartner
« Il est impossible que les fournisseurs de cloud cèdent ce marché aux éditeurs indépendants et même s’ils préfèrent avoir toutes les données d’un client dans leur cloud respectif, ils préfèrent jouer un rôle actif pour aider les clients à les gérer quand ce n’est pas le cas », estime Adam Ronthal.
La fédération de requêtes : un défi, même pour Google Cloud
Cependant, cette volonté se confronte à une réalité technique. Le principe de BigQuery repose sur la fédération de requêtes, un exercice complexe et coûteux à mettre en place pour diverses raisons liées au réseau, au stockage et aux instances de calcul distribuées.
Avec Omni, les données à analyser sont tout de même transférées temporairement au sein du cluster de calcul le temps d’exécuter la ou les requêtes. Ensuite, GCP offre deux options à ses utilisateurs. La première consiste à voir le résultat des requêtes depuis l’interface d’Omni. La deuxième permet d’exporter les données dans l’instance de stockage BigQuery pour potentiellement y appliquer d’autres transformations ou analyses.
Pour l’instant, difficile de connaître les limites d’un tel service. Google Cloud prévoit un autre rendez-vous en août pour évoquer plus en profondeur son outil. La disponibilité générale nous donnera un indicateur important pour les potentiels clients : les tarifs appliqués à BigQuery Omni.