Sergey Nivens - Fotolia
Les efforts d’Oracle pour redorer le blason d’Autonomous Data Warehouse
Le fournisseur étend l’écosystème autour de son entrepôt de données en même temps qu’il réduit les coûts de stockage pour tenter de convaincre plus largement ses clients existants et de nouveaux venus. Au passage, dans la plus pure tradition « Ellisonienne », il n’hésite pas à tacler Snowflake.
Le 3 mai 2023, Oracle a annoncé un ensemble de mise à jour pour Autonomous Data Warehouse (OADW) dans le but de rivaliser avec Snowflake.
Cet objectif, le fournisseur l’avait déjà affiché en 2021, mais il n’avait que l’argument de la « facilité ». La promesse d’Oracle avec OADW, tout comme avec Oracle Database est de fournir l’ensemble des fonctionnalités de traitements de données au sein de son entrepôt de données, de l’ingestion en passant par la transformation, la visualisation, l’analyse graphe et géospatiale, ainsi que l’application de modèles de machine learning. Depuis, Snowflake a également embrassé cette tendance.
Deux architectures qui ne sont plus incompatibles
Malheureusement pour Oracle, cette vision du système de gestion de données à tout faire ne prend pas partout. Qu’à cela ne tienne, le fournisseur embrasse deux approches – ou deux architectures. Il prétend offrir d’un côté les moyens de constituer un Data Lake Cloud « ouvert et interopérable », et de l’autre sa vision d’une plateforme « optimisée et unifiée » pour tout type de traitements analytiques. Le set de boîtes de Lego ou le couteau suisse.
Cette vision d’un Data Lake ouvert consiste à héberger des données dans des formats open source sur Oracle Cloud Infrastructure (OCI), puis de laisser les entreprises choisir les outils de traitement parmi ses solutions propriétaires et un catalogue de services managés s’appuyant sur des technologies open source (dont Apache Spark et MySQL).
En outre, Oracle s’est engagé à soutenir des approches multicloud. Cela passe par un partenariat avec Microsoft Azure depuis 2019 et la disponibilité de MySQL HeatWave sur AWS.
Oracle vante les mérites d’une approche où Autonomous Data Warehouse serait au centre d’un dispositif multicloud. Ainsi, OADW peut accéder à des données stockées dans les services de stockage objet de GCP, Azure et AWS. Il dispose également de connecteurs pour interroger directement des bases de données, des datawarehouse et des plateformes, dont Oracle Fusion, Salesforce, Azure SQL, Snowflake, PostgreSQL, Amazon RedShift et depuis peu Google BigQuery.
Du côté des data catalogs, Oracle prend en charge le sien et AWS Glue. Les notifications configurées par les utilisateurs peuvent être envoyées vers Slack, mais aussi – et c’est nouveau – vers Microsoft Teams.
Oracle veut qu’Autonomous Data Warehouse soit plus ouvert que le Data Cloud de Snowflake
Cette expansion va de pair avec la prise en charge des formats de tables et de données open source dont AVRO, CSV, Parquet et désormais Apache Iceberg.
Toujours en opposition à Snowflake et à RedShift, Oracle annonce Data Sharing, un service de partage et d’échanges de données. Associé à un système de gouvernance, Data Sharing permet d’établir des accès internes et externes, puis de gérer les rôles et leurs droits tout en conservant une piste d’audit.
Pour ce faire, Oracle s’appuie sur deux protocoles. L’un est interne : Cloud Link est spécifique à Oracle Autonomous Database. Il permet des partages sans duplication des données entre des instances sous-jacentes à OADW. Le second est ouvert : il s’agit de Delta Sharing, le protocole open source imaginé par Databricks. Ainsi, Data Sharing permet d’envoyer plus simplement des tables vers des moteurs de traitement open source externes (Trino, Presto, Pandas, Spark et Hive), mais surtout vers les outils BI (Qlik, Tableau, Looker, Power BI) et les lakehouse du marché (ADLS, Databricks, Dremio et BigQuery).
« Snowflake offre une fonction de partage de données, mais il le fait d’une manière complètement propriétaire. Il n’est possible de partager des données qu’entre comptes Snowflake », signale George Lumpkin, vice-président, gestion des produits Oracle Autonomous Database chez Oracle. « Nous pensons que la stratégie d’Oracle en la matière est beaucoup plus logique », poursuit-il. « Aujourd’hui, les clients appliquent nécessairement des approches multicloud. Ils ont toutes sortes de partenaires avec lesquels ils veulent partager des données, et ils ne peuvent pas s’attendre à ce que tout le monde soit exactement dans le même espace technologique ».
Databricks, Google Cloud ou encore Dremio partagent à peu de choses près les mêmes arguments. Mais Oracle aime à jouer plus franchement du marketing bruyant et agressif.
Data Transforms : Oracle recycle Data Integrator
En même temps, Oracle compte les lames de son couteau suisse. Ainsi, il a rappelé l’existence de Data Transforms : un ELT « no code » intégré au Data Studio du data warehouse cloud. Data Transforms dispose d’une centaine de connecteurs sources. Dans les faits, Data Transforms est un E-LT. Une interface – un wizard – permet de gérer l’extraction et le chargement de données, tandis qu’une seconde permet de construire des transformations simples (des jointures) ou plus complexes (utilisation du machine learning pour détecter des anomalies, préparation de données géospatiales, etc.).
Il s’agit d’un « dérivé » d’Oracle Data Integrator, un produit né en complément du SGBD Oracle 12c.
Plus largement, Data Studio rassemble des outils consacrés au catalogage, à la découverte, à l’analyse et au partage des données.
Pour les ingénieurs peu intéressés par les interfaces WYSIWYG, OADW peut également s’interfacer avec des dépôts de code, dont GitHub, Amazon CodeCommit ou Azure Repos. De même, plusieurs fonctions de Data Studio sont consacrées à l’exécution et à la planification de requête, à la conception de tableaux de bord, à la gestion d’API, de schémas, ou encore à la modélisation de données.
« Nous avons intégré Data Studio à même Autonomous Data Warehouse. Vous n’avez pas à payer de supplément pour cela. Vous n’avez pas à l’intégrer vous-même. Tout est patché et entretenu par nos soins. Nous nous assurons que votre base de données et votre environnement disposent des mêmes politiques de sécurité », liste George Lumpkin pour justifier l’apport d’une telle solution par rapport aux solutions des éditeurs tiers.
Sur le papier, le data warehouse d’Oracle semble égaler ses adversaires RedShift et Snowflake. Il peut – et cela peut paraître étrange pour certains au vu de la réputation d’Oracle – s’intégrer dans une stack moderne et ouverte.
Une baisse drastique du coût du stockage
Or pour qu’Autonomous Data Warehouse Cloud entre en considération dans le choix des entreprises, il faut que son prix soit acceptable, reconnaît le fournisseur. C’est là qu’entre en scène une mesure clé : Oracle baisse le prix du stockage de son data warehouse de 75 %. Ainsi, le prix du téraoctet dans OADW passe de 118,40 dollars à 25 dollars par mois… Quand Snowflake annonce le facturer 23 dollars par mois. En prenant en compte le coût de calcul, les deux solutions semblent alignées d’un point de vue purement tarifaire.
George LumpkinVP gestion des produits Oracle Autonomous Database, Oracle
Oracle garantit un SLA jusqu’à 99,995 % en rappelant qu’OADWS s’exécute sur des infrastructures Exadata, tandis que Snowflake s’arrête à 99,99 %. Toutefois, certains clients de Snowflake témoignent que leurs instances ne sont pas tombées en deux ans de fonctionnement. Là encore, les deux solutions paraissent faire jeu égal.
Mais selon les porte-parole d’Oracle, il s’agit avant tout de soutenir le deuxième choix d’architecture soutenu par Oracle, celle de l’entrepôt de données qu’il maîtrise mieux historiquement.
« Nous avons réduit les coûts afin de permettre aux clients de choisir plus facilement l’architecture qui leur convient pour y placer toutes leurs données dans Autonomous Data Warehouse », explique George Lumpkin. « Cela signifie que notre stockage natif [dans OADW] est à peu près au même prix qu’un service de stockage objet ».
Après vérification, le prix de 25 dollars du To par mois est même sensiblement plus bas que le coût du stockage objet standard Oracle Cloud Infrastructure, fixé à 25,24 dollars du téraoctet par mois. À titre de comparaison chez AWS, les tarifs du service S3 standard débutent à 23 dollars du téraoctet par mois et sont décroissants en fonction du volume de données stockées.
« Nous disposons d’une couche de stockage optimisée pour les bases de données, bien meilleure et plus sophistiquée », vante George Lumpkin.
Or, de nombreuses organisations préfèrent stocker leurs données dans un service de stockage objet et dans un format ouvert pour éviter d’être captif auprès d’un éditeur ou d’un autre.
Oracle en a parfaitement conscience. C’est l’une des raisons pour lesquelles il supporte Apache Iceberg et Delta Sharing.
Pour autant, George Lumpkin observe un autre phénomène qui justifie l’annonce de la baisse de tarif.
« Un bon nombre de nos clients existants ont choisi de mettre leurs données dans un service de stockage objet, non pas parce qu’ils se sont engagés dans une approche ouverte et interopérable, mais parce qu’ils voulaient économiser de l’argent », signale-t-il. « Et c’était une très mauvaise raison de choisir cette architecture [Lakehouse] ».
En ce sens, le fournisseur demeure attaché à son approche unifiée du traitement des données, qu’il considère dans son cas plus efficace. « Comme il est possible d’effectuer des requêtes SQL vingt fois plus rapidement tout en bénéficiant d’un coût de stockage similaire, notre offre nous semble une option intéressante pour ces clients qui avaient choisi le stockage objet par nécessité », avance le responsable.
« Nous supportons les deux approches. Ce n’est pas tout noir ni tout blanc », conclut-il.