Teradata décline VantageCloud Lake sur Azure
Teradata a annoncé la disponibilité générale de VantageCloud Lake sur Microsoft Azure. Si l’éditeur évoque ses projets en matière d’IA générative, il s’agit pour l’instant d’offrir une plateforme robuste pour accueillir de gros cas d’usage d’analytique prédictive.
Pour rappel, cette plateforme lancée à la fin du mois d’août 2022 illustre la stratégie « cloud first » de l’éditeur historique.
VantageCloud est décliné en deux offres. L’une, Enterprise est destinée aux entreprises qui souhaiteraient migrer leur data warehouse legacy vers le cloud. Elle offre des fonctions multicloud et hybride. L’autre, entièrement managée, se nomme VantageCloud Lake et cible les nouveaux clients, plus petits, ou les entités de certains groupes souhaitant accélérer leurs projets analytiques, selon Teradata.
D’un point de vue logique, comme VantageCloud, VantageCloud Lake réunit le moteur de base de données de Teradata et les outils d’extraction, de transformation, de chargement et d’analytiques « in-database engine » rassemblés sous l’appellation ClearScape Analytics.
Sous le capot, un cluster principal accueille la base de données analytique de Teradata et les capacités de calcul correspondantes. Des clusters de calcul peuvent être activés à la volée pour des besoins d’autoscaling et exécuter des charges de travail de reporting, d’analytique ou encore d’ingénierie de données.
Un troisième groupe de clusters dit « analytique » est consacré aux tâches gourmandes en mémoire vive : préparation de données, construction de modèles ML, interaction avec les outils de manipulation de données tiers, etc.
Les utilisateurs de la plateforme peuvent stocker leurs tables dans trois instances : le système de stockage bloc TDFS relié au cluster primaire, un autre réservé aux fichiers (OFS) et un troisième, externe, configuré en mode objet (NOS).
Les évolutions de VantageCloud Lake
Entre janvier 2023 et mai 2023 (la dernière mise à jour de la documentation du produit de Teradata), VantageCloud Lake a hérité des fonctionnalités des autres produits de l’éditeur. L’on peut retenir la possibilité de développer et maintenir des UDF (fonctions définies par l’utilisateur) écrites en SQL, C ou C++. En trois mois, l’éditeur a ajouté un train de fonctions de prédictions analytiques à l’aide de modèles SVM (machines à vecteurs de support), d’arbre de décision, de boosting de gradient (XGBoost) et de modèles linéaires généralisés (GLM ou généralisation de la régression linéaire).
Teradata a également revu QueryGrid, son moteur de fédération de requêtes. Dans sa version 3.0, QueryGrid peut être exécuté depuis les trois versions de Vantage (Vantage sur site se nomme désormais VantageCore). Le moteur est compatible avec Apache Hive, Apache Spark SQL, Trino (Starburst Enterprise) en cible et en source, et avec Oracle, BigQuery ainsi qu’avec un connecteur JDBC générique en cible.
Outre la prise en charge des backups partiels et des points de restauration, Teradata a préparé sa plateforme à la conformité aux normes SOC 1, SOC 2, PCI, ISO 27001 et HIPPA. « Les procédures de certification sont en cours », renseigne Jean-Marc Bonnet, Sales Technology Director chez Teradata.
Azure ML s'intègre à VantageCloud Lake
Après avoir proposé VantageCloud Lake sur AWS, Teradata, comme il l’avait prévu, décline son offre sur Microsoft Azure. Outre la prise en charge des services de stockage Azure Blob Storage, Azure Data Lake Store, ou des SGBD d’Azure, VantageCloud Lake est compatible avec Azure Data Share, Power BI et surtout avec Azure ML.
VantageCloud Enterprise profite de cette intégration avec les services ML d’Azure depuis mars 2023. Ici, il s’agit de charger les données depuis la base de données VantageCloud Lake vers une instance Azure Blob Storage, pour préparer des données et entraîner des modèles de machine learning.
Jean-Marc Bonnet rappelle que les utilisateurs de Dataiku, SAS, H20, TensorFlow ou encore SageMaker peuvent faire de même en adéquation avec l’approche BYODL (Bring Your Own Data Lab).
Avec la fonction BYOM (Bring Your Own Model), peu importe l’outil choisi, le cluster principal associé au système de stockage en mode bloc permet d’inférer des modèles au format PMML, H20, ONNX et Dataiku. Pour l’instant, la plateforme de Teradata ne prend pas encore en charge les processeurs GPU. Ce sera le cas en 2024, selon Jean-Marc Bonnet.
« Nous peaufinons notre moteur, nous le rendons plus ouvert et nous travaillons sur son efficacité à l’échelle », résume-t-il.
De l’analytique prédictive à l’échelle et (un peu) d’IA générative
Selon les analystes, la disponibilité de VantageCloud Lake sur Azure serait un atout pour les clients communs du géant du cloud et de Teradata.
« Teradata dispose d’une expertise approfondie et éprouvée dans l’exécution de charges de travail complexes à l’échelle associée à une gestion axée sur la gouvernance », déclare Donald Farmer, fondateur et analyste principal chez ThreeHive Strategy. « Donc, pour tous ceux qui veulent étendre leurs capacités ML existantes sur Azure, mais qui ont besoin d’une gouvernance stricte – par exemple les acteurs de la santé, de l’industrie pharmaceutique, des services financiers – il s’agit d’une évolution prometteuse, mais peu surprenante ».
Mike Leone, analyste chez Enterprise Strategy Group (propriété de Techtarget, également propriétaire du MagIT), lui, s’intéresse plus particulièrement à la combinaison de ClearScape et d’Azure ML.
« En associant ClearScape Analytics à Azure ML, les clients communs des deux groupes pourront bénéficier d’une gestion de bout en bout de leurs pipelines analytiques et d’intelligence artificielle », assure-t-il.
« Y compris dans le cadre de projets d’IA générative », poursuit Mike Leone. « Les entreprises cherchent à simplifier et à accélérer leurs programmes d’IA. Et, ce partenariat offrira précisément cela aux clients communs ».
Outre les fonctionnalités ModelOps, Jean-Marc Bonnet rappelle que Teradata a introduit dans VantageCloud Lake en janvier 2023 une fonction de plongement lexical (word embedding) issue de la version 17.20 de Teradata Analytics Database. Cette fonction SQL-MR peut être utilisée pour représenter des données textuelles (ou semi-structurées) sous forme de vecteurs lisibles par un grand modèle de langage (LLM). Cela permet de générer des réponses ou du texte en s’appuyant sur les données de l’entreprise.
« Vantage peut également être utilisée pour préparer les données nécessaires à l’entraînement de modèles, à travers nos outils et ceux des partenaires, mais aussi pour les exécuter en temps réel ou de manière asynchrone en support d’applications d’IA générative traitant des millions de requêtes par jour », anticipe le directeur technique France.
Teradata a aussi dans les cartons un projet visant à ajouter un assistant en langage naturel dans son interface utilisateur.
VantageCloud Lake étant désormais disponible sur Azure, il ne reste plus que Google Cloud.
Au-delà de la disponibilité sur plusieurs clouds, le fournisseur serait bien avisé d’aborder la question du coût et de la facilité avec laquelle les nouveaux clients peuvent commencer à utiliser ses outils, selon M. Farmer.
Une offre encore chère, mais une stratégie cloud payante
Teradata propose trois forfaits différents pour sa plateforme VantageCloud. Tous sont basés sur la consommation, avec Enterprise à partir de 9 000 dollars par mois, Enterprise+ à partir de 10 500 dollars par mois et Optimized Cloud à 31 000 dollars par mois pour 10 To de stockage « brut ».
Même l’option la moins chère représente un coût de départ de plus de 100 000 dollars par an. Les clients peuvent toutefois obtenir des réductions en utilisant leurs contrats cloud et il est possible d’arrêter les instances certains jours de la semaine.
« La prochaine étape pour Teradata devrait être de permettre une intégration plus rapide et plus rentable pour les nouveaux clients », avance Donald Farmer.
« Plus vous utilisez Teradata, moins cela vous coûte cher », défend Jean-Marc Bonnet. « Nous sommes capables de diminuer le coût unitaire de la requête au moment d’en traiter des millions ».
Par ailleurs, le responsable défend la présence d’un outil FinOps dans la console cloud et d’API pour exporter les données de consommation vers des outils de gestion de coûts du marché.
Selon les retours récoltés sur la plateforme G2, les utilisateurs sont de l’avis de Donald Farmer. Pour autant, la stratégie de Teradata semble fonctionner. Lors de son bilan financier du 1er trimestre fiscal 2023, Teradata revendiquait un revenu annuel récurrent dans le cloud de 388 millions de dollars, soit une hausse de 86 % par rapport à la même période l’année dernière. Si l’éditeur entend générer 1 milliard de dollars d’ARR lié au cloud public en 2025, le modèle à la souscription traditionnel de Teradata représente encore une grande part de son chiffre d’affaires.
Selon les dires de Steve McMillan, président et CEO de Teradata, les bons chiffres obtenus dans le cloud résultent de la signature d’un contrat à huit chiffres, « probablement l’un des plus gros contrats signés sur AWS Marketplace » et de la validation de plusieurs contrats à sept et six chiffres. Pour autant, Teradata note une baisse d’activité en EMEA (-9 % YoY) et en Asie-Pacifique (-13 % YoY), tandis que le CA atteint 476 millions de dollars au Q1 2023, contre 496 milliards de dollars au Q1 2022. Cette différence s’expliquerait en grande partie par la clôture des activités en Russie, selon l’éditeur.
Si les clients historiques suivent Teradata dans le cloud, VantageCloud Lake « génère beaucoup d’activités sur de nouveaux logos », observe de son côté Jean-Marc Bonnet.