Intégration de données : Google ouvre un peu plus BigQuery aux métiers
Google Cloud a présenté des services d’intégration de données et d’ETL multi-source dont la vocation est de faire de BigQuery un entrepôt de données central pour les entreprises et un support premier pour les services analytiques de la GCP.
Tout à sa stratégie de séduire les entreprises et de faire de la GCP (Google Cloud Platform) un réceptable pour toutes les workloads, Google a présenté lors de sa conférence Cloud Next des services cloud dont la vocation est de faciliter la migration de données vers BigQuery, l’entrepôt de données du groupe.
Ces fonctions annoncées lors de l’événement sont en ligne avec la stratégie de Thomas Kurian, le CEO de Google Cloud depuis quelques mois. Sa vision consiste à faire de Google Cloud et de la GCP une plateforme pour la transformation numérique. Et cela passe notamment par la mise à disposition de services centrés sur la manipulation et l’exploitation de la donnée, bien au-delà de l’infrastructure cloud sous-jacente et davantage centrés sur les services applicatifs. Au cœur du dispositif, on retrouve ainsi l’entrepôt de données maison : BigQuery. « Une fondation pour l’analytique », selon Thomas Kurian.
Sudhir HasbeDirecteur Product Management, Google Cloud
Ce service connait une forte croissance dans les usages, explique d’ailleurs Sudhir Hasbe, directeur, Product Management chez Google Cloud. « BigQuery connait une hausse de 300 % des données qui y sont analysées. Plus d’un exaoctet sont dans BigQuery », lance-t-il. « Les clients nous demandent de briser les silos de données. »
Certaines annonces réalisées lors de cette édition vont en ce sens avec comme fil conducteur l'invitation des entreprises à migrer leurs données vers BigQuery et vers les services d’analytique et de Machine Learning associés. Et cela passe d’abord par des outils d’intégration de données vers l’entrepôt de données, adaptés à différentes populations d’utilisateurs.
C’est notamment le cas de Cloud Data Fusion. Ce service s’apparente en effet à un ETL low code / no code qui permet de créer des pipelines d’intégration multi-sources (sur site ou cloud) et ce de façon graphique. Pour cela, l’outil met à disposition non seulement un grand nombre de connecteurs, mais aussi – surtout – des modèles de transformation prédéfinis qui permettent d’ajuster et de combiner les jeux de données au mieux avant une analyse dans BigQuery. Cet outil s’apparente en fait à une implémentation du projet open source CDAP, ce qui garantit une certaine forme de portabilité des pipelines, assure Google.
Plus de 100 applications Saas dans DTS
L’autre outil d’intégration annoncé lors de Google Cloud Next est en fait une extension d’un service déjà existant : Data Transfer Service (DTS) qui s’apparente au service de migration de données vers la GCP. Ce service pilote par exemple la stratégie de conquête de Google des clients des entrepôts de données traditionnels, comme ceux de Teratadata, Netezza ou encore Redshift, le concurrent de BigQuery chez AWS. Une extension de DTS pour ces cibles a d’ailleurs été confirmée lors de cet événement.
Jusqu’alors DTS permettait de migrer des données issues d’applications Saas internes comme Google Ad, Campaign Manager ou encore Ad Manager. Désormais, il sera capable d’intégrer les données de plus de 100 applications les plus couramment utilisées, dans les entreprises comme Salesforce, Marketo, Workday ou encore NetSuite. Pour cela, Google Cloud a noué un partenariat avec une start-up locale, Fivetran, dont le siège est à Oackland.
Cette société développe un service Saas d’ELT (et non pas d’ETL – Extract, Load, Transform) nous avait expliqué son fondateur et CEO George Fraser, lors d’une visite de l’entreprise. Contrairement à l’ETL, l’ELT charge les données des applications dans l’entrepôt de données avant d’exploiter les capacités de calcul de la plateforme et du cloud pour réaliser les transformations adéquates. « Avec ELT, on inverse les taches L et T pour effectuer des transformations natives. On en fait une copie clean dans les entrepôts de données. Les schémas sont normalisés pour avoir les données prêtes à être requêtées », avait-il commenté.
L’une des particularités de Fivetran est de pouvoir réaliser des synchronisations de données de façon incrémentale (et non pas de recharger l’intégralité des jeux de données) entre la source et l’entrepôt de données. Cela peut aussi s’effectuer sur une sélection d’objets de la source. C’est donc cette technologie qui se retrouve intégrée au plus près de BigQuery et des outils analytiques associés.
L’intégration de données et l’ETL / ELT est devenue un élément clé pour les entreprises qui regorgent de silos de données, répartis d’un département métier à l’autre, cloud ou pas. Les éditeurs l’ont d’ailleurs bien compris et cherchent à abaisser la barrière à l’entrée de ces outils d’intégration via des services Saas en libre-service et une cible plus métier. Dans la même optique stratégique, Talend a ainsi racheté Stitch et Qlik a mis la main sur Attunity. La société Alooma quant à elle fait office de pure-player du genre.