VantageCloud Lake : Teradata change le châssis, pas le moteur
Avec VantageCloud Lake, Teradata entend proposer une plateforme de traitement de données plus abordable, portée par une architecture cloud native et des fonctionnalités analytiques avancées.
Quelques jours après l’annonce par Cloudera de son data lakehouse, c’est au tour de Teradata d’annoncer VantageCloud.
Ce portfolio comprend deux éditions : VantageCloud Enterprise et VantageCloud Lake. Elles intègrent toutes deux ClearScape Analytics, une version renommée et améliorée de Vantage Analyst.
VantageCloud Enterprise n’est autre qu’une nouvelle appellation pour Teradata Vantage, une offre lancée en 2018. Jusqu’alors, Teradata proposait une version self-managed et managée de Vantage dans le cloud (soit derrière le VPN du client, soit dans des instances entièrement gérées par Teradata). L’édition VantageCloud Enterprise propose les mêmes options de déploiement multicloud et hybride.
S’il est bien un adepte du renommage, l’éditeur met surtout en avant VantageCloud Lake. Cette plateforme reprend les grands principes de l’architecture MPP (Massive Parallel Processing) du SGBDR historique par-dessus une nouvelle infrastructure cloud native.
« Nous avons réarchitecturé le châssis qui supporte notre moteur pour mettre au point VantageCloud Lake », résume Jean-Marc Bonnet, Sales Technology Director Europe de l’Ouest chez Teradata.
Un nouveau « châssis » cloud natif
Jean-Marc BonnetSales technology Director Europe de l'Ouest, Teradata
Cette solution aurait réclamé près de deux ans de développement et représenterait des centaines de millions de dollars dépensés en R&D, selon Steve McMillan, PDG de Teradata.
Cette plateforme entièrement managée par Teradata est disponible sur AWS et sera proposée sur Azure et GCP dans le courant de l’année 2023. Pour l’instant, elle s’appuie sur les services EC2, EBS et S3 du géant du cloud. L’éditeur vante la séparation du stockage et du calcul, l’élasticité, l’autoscaling, la gestion multicluster ou encore l’isolement des charges de travail.
Ce sont à peu de choses près les arguments brandis par l’éditeur au fur et à mesure de l’évolution de Teradata Vantage sur le cloud. Pour autant, Vantage n’apportait pas autant de flexibilité, selon Jean-Marc Bonnet. Outre le fait de réaliser les mises à jour automatiques des middlewares, il s’agit de pouvoir démarrer et d’éteindre des instances à la volée, en fonction des besoins analytiques.
Pour l’occasion, l’éditeur a revu sa manière de stocker les données. Les données au format CSV, Avro, Parquet et JSON sont placés par défaut dans un système de stockage objet.
Depuis 2020, Teradata développe Native Object Store (NOS). Au début, il s’agissait de pouvoir lire les tables externes depuis des instances de stockage avant de décider s’il était intéressant de les migrer vers Vantage. Désormais, il est possible d’écrire les données dans ces object stores.
VantageCloud Lake introduit une nouvelle catégorie de stockage objet : File System Object Store. Dans ce cas, le système de fichiers Teradata Database File System (TDFS) s’exécute par-dessus NOS. Ainsi, cela permet d’optimiser les performances en lecture et en écriture ainsi que les coûts d’exécution, selon Jean-Marc Bonnet.
« Il est toujours possible d’effectuer de multiples traitements concurrents sur un object store natif, mais ils ne seront performants qu’en rajoutant des capacités de calcul », souligne-t-il. « Nous avons puisé dans TDFS différentes techniques d’indexation, d’optimisation de jointures, et de mise en cache pour rationaliser [la consommation de ressources, N.D.R.] ».
File Object Storage prend en charge le stockage objet natif d’AWS, Amazon S3, et supportera à l’avenir celui de Microsoft Azure (Azure Blob Storage) et de Google Cloud (Google Cloud Storage). « La contrepartie, c’est que ce système est moins ouvert qu’un object store natif, mais il est toujours possible de partager les données par d’autres moyens », précise le directeur technique français.
En parallèle, Teradata continue de proposer le stockage en bloc. TDFS est optimisé pour s’exécuter sur EBS et cette combinaison serait très performante pour certains usages.
Donald FarmerAnalyste, The TreeHive Strategy
Teradata s’est assuré que sa plateforme analytique pouvait exécuter plus de 1 000 nœuds en parallèle pour autant d’utilisateurs et des milliers de requêtes concurrentes. « Teradata apporte quelque chose d’unique sur le marché des bases de données en cloud – une solution véritablement critique, à hautes performances, capable de supporter des charges de travail mixtes complexes », estime Donald Farmer, analyste chez The TreeHive Strategy auprès de SearchBusiness Analytics [propriété de TechTarget, également propriétaire du MagIT].
Répondre aux besoins analytiques des départements
Toutefois, Jean-Marc Bonnet signale que VantageCloud Lake est une offre self-service disponible à partir de 4 000 dollars par mois et environ 48 000 dollars par an. Cette information n’est pas encore affichée sur le site de l’éditeur.
Cette tarification, somme toute, abordable par rapport aux canons tarifaires de l’éditeur, reflète plusieurs approches. En combinaison avec ClearScape Analytics, il s’agit de cibler des cas d’usage spécifiques liés à l’analytique avancée et au machine learning.
D’une part, les instances peuvent être déployées dans différents départements d’une entreprise suivant les besoins. Depuis sa console, Teradata affirme fournir pour tous les produits du portfolio VantageCloud des fonctionnalités de gestion et de gouvernance des coûts. « Teradata […] propose des fonctionnalités importantes telles que la gestion de la charge de travail et la gouvernance des coûts, qui sont deux domaines où les concurrents ne sont pas seulement en retard, mais nettement plus faibles », ajoute Donald Farmer. Les témoignages de certains utilisateurs d’Amazon RedShift et Snowflake auprès du MagIT semblent corroborer cette observation.
D’autre part, ClearScape Analytics agrémente Vantage Analyst d’une cinquantaine de fonctionnalités de traitements de séries temporelles et de machine learning en base. Aussi, la solution doit améliorer les fonctionnalités du framework ModelOps et l’Enterprise Feature Store développés par Teradata. En revanche, le fournisseur ne propose pas sa propre plateforme de data science. Il invite ses clients à utiliser les plateformes et les notebooks tiers dont Dataiku, H2O, AWS SageMaker, Jupyter ou encore R Studio. « Nous n’avons pas d’outils de data mining, de machine learning. Nous avons un moteur et des fonctions intégrées, mais elles n’étaient pas assez visibles », précise Jean-Marc Bonnet.
Comme tout feature store, celui de Teradata doit permettre de stocker les paramètres, hyperparamètres, les data sets et les variables réutilisables lors de projets de data science. Le framework ModelOps, lui, orchestre et supervise les modèles à pousser en production dès qu’ils sont compilés en Python, en R, au format PMML ou ONNX.
Qui plus est, Jean-Marc Bonnet assure qu’il est possible de fédérer les données entre VantageCloud Enterprise et Cloud Lake ou entre Cloud Lake et d’autres systèmes concurrents. En clair, VantageCloud Lake peut servir à attirer de nouveaux clients moins fortunés ou aider à déployer des projets « tactiques » et des expérimentations dans des grands groupes utilisant déjà les solutions de Teradata.
« Dans de trop nombreuses entreprises, il est difficile de déployer des projets de data science de qualité, car les modèles qui ont l’air parfaits sur l’établi peuvent être difficiles ou coûteux à exécuter dans la pratique », avance Donald Farmer. « Les capacités de la base de données et les fonctions de gestion des modèles font de ClearScape une offre très intéressante ».
(Re) montrer la voie du cloud
Selon Steve McMillan – qui a sonné la cloche du New York Stock-Exchanges à l’occasion de cette annonce – l’éditeur cherche à revoir sa stratégie cloud.
« Il ne s’agit pas seulement d’annoncer de nouveaux produits, mais de repositionner Teradata comme une véritable organisation cloud », avance-t-il.
Reste à voir si la nouvelle formule prendra auprès des clients. Le cloud représente tout de même le point le plus positif du bilan financier de Teradata.
Au deuxième trimestre fiscal 2022, l’éditeur a réalisé un chiffre d’affaires de 430 millions de dollars, en baisse de 12 % par rapport à la même période en 2021. A contrario, ses revenus récurrents dans le cloud public sont passés de 139 millions à 234 millions de dollars sur le même laps de temps, soit une augmentation de 68 %.
Alexander WurmAnalyste, Nucleus Research
La concurrence est rude sur le marché. Snowflake a réalisé un bon deuxième trimestre fiscal 2023 et revendique désormais plus de 6 800 clients. Databricks, dont les résultats ne sont pas publics, est aussi en embuscade. BigQuery, Azure Synapse et Amazon RedShift sont toujours de la partie. Sans oublier de citer les très ambitieux Dremio et SingleStore.
Alexander Wurm, analyste chez Nucleus Research, lui se veut confiant quant à la popularité de Cloud Lake. « Cette annonce marque un changement dans l’approche de Teradata lui permettant de combiner des capacités de stockage importantes et d’analytique avec l’efficience économique et la flexibilité d’une architecture cloud native », affirme-t-il dans une courte vidéo. « Au fur et à mesure que Teradata élargira la disponibilité de VantageCloud Lake au cours de l’année prochaine, Nucleus s’attend à ce que l’éditeur gagne des parts de marché sur Snowflake et Databricks, en particulier dans les grandes entreprises où le shadow IT, le coût et la montée à l’échelle sont des préoccupations ».
L’éditeur historique a la réputation de maintenir un positionnement tarifaire plus élevé que la moyenne. Par le passé, ses clients lui achetaient des appliances coûteuses. Il préfère désormais les louer aux sociétés qui continuent de déployer le datawarehouse sur site. Pour autant, le directeur technique français pense que Teradata peut tirer son épingle du jeu dans le cloud.
« Teradata existe depuis quarante ans. Les discussions avec les clients concernant le cloud ont débuté plus tard que chez nos compétiteurs », relate Jean-Marc Bonnet. « Teradata est cher si vous ne savez pas l’utiliser. Et parfois, c’est de notre faute […], mais le rapport performance-prix est globalement bon. J’en suis convaincu ».