Avec ClearScape Analytics, Teradata veut briller dans le machine learning

Teradata tente de redéfinir sa place sur un marché de la gestion de données dominé par quelques acteurs ayant pris le train du cloud avant lui. L’éditeur dit se distinguer par ses capacités analytiques et de machine learning à l’échelle en mode hybride.

Alors que son data warehouse était très présent dans le SI des grands groupes, l’éditeur a un peu perdu de son aura.

Néanmoins, Teradata se perçoit – et l’écosystème lui renvoie cette image – comme l’apporteur de solutions techniques à l’échelle et robuste.

Il développe véritablement son offre cloud depuis quatre ans et mise sur l’hybridation avec VantageCloud et VantageCloud Lake.

L’offre managée VantageCloud Lake a été lancée en 2022, d’abord sur AWS, puis sur Microsoft Azure en 2023 et Google Cloud cet été.

Comme ses concurrents et partenaires, Teradata se voit imposer par ses clients l’adoption de formats de tables ouverts. En juin 2024, il a rendu compatible VantageCloud Lake avec Apache Iceberg V2 et Delta Lake V3.

L’éditeur prend en charge les fichiers Parquet, ORC et Avro avec Apache Iceberg et uniquement Parquet avec Delta Lake.

La prise en charge des catalogues de métadonnées est pour l’instant limitée à Amazon Glue et Unity Catalog pour les deux formats et Apache Hive avec Iceberg.

Pour rappel, Unity ne peut pas écrire des données en Iceberg. Dans la configuration de Teradata, le catalogue de métadonnées de Databricks est le seul capable d’écrire des données dans les réceptacles Delta.

Delta Lake est pris en charge sur Amazon S3, ADLS Gen 2 (Azure Data Lake Service Generation 2), tout comme Apache Iceberg qui est également compatible avec Azure Blob Storage.

« Prochainement, nous rendrons accessibles ces formats de table ouverts en mode hybride et sur site », indique Jean-Marc Bonnet, directeur avant-vente Europe de l’ouest chez Teradata.

Plus que la prise en charge des formats ouverts, Teradata pousse fortement ses capacités de traitements de machine learning et de deep learning.

« Nous travaillons sur environ 140 patterns d’IA et de machine learning où l’on optimise les traitements », résume Jean-Marc Bonnet. « À isoconfiguration, nous réduisons significativement le coût à la requête », insiste-t-il.

En juin, l’éditeur a lancé la préversion publique d’AI Unlimited, un moteur d’exécution de charges de travail AI/ML à déployer sur AWS, Azure et Microsoft Fabric. Après s’être abonné sur les places de marché de l’un ou de l’autre des fournisseurs, il convient de configurer le déploiement et de se connecter aux espaces de stockage objet (ADLS Gen 2, Amazon S3) pour ensuite exécuter des notebooks Jupyter et des fonctions ClearScape Analytics.

Étoffer et simplifier ClearScape Analytics

Pour rappel, ClearScape Analytics reprend les fonctions et les pipelines IA/ML intégrés dans le moteur de la base de données de Teradata et en ajoute d’autres.

Justement, lors de son événement londonien Possible 2024 le 17 septembre, Teradata a présenté de nouvelles fonctionnalités spécifiques à cette collection d’outils.

En premier lieu, Teradata propose PySpark2teradataml. Comme son nom l’indique, cet outil permet de convertir des charges de travail PySpark dans un langage compris par le moteur massivement parallèle de l’éditeur. PySpark est une librairie pour écrire des traitements exécutés par Apache Spark en Python.

Teradata promet que cela permet de réduire les coûts et la complexité aux clients qui devaient exporter les données de VantageCloud vers des « plateformes Apache Spark ».

Une fois le code converti, les traitements peuvent être passés à l’échelle pour « accélérer la mise en production des modèles de machine learning ». Selon Jean-Marc Bonnet, le code ajusté par des mécaniques propriétaires demeure « ouvert et exploitable dans d’autres univers » que celui de Teradata. À noter que les clients devront parfois passer par la case refactorisation.

Sur le papier, cela ressemble à un moyen pour les clients de se passer de Databricks, la plateforme de référence pour exécuter des charges de travail Apache Spark. Petit différenciateur tout de même, Teradata dit pouvoir les exécuter en mode hybride, multicloud et, au besoin, sur site, ce que ne fait pas Databricks.

Dans la même veine, l’éditeur entend faciliter l’exécution de code à travers des frameworks open source avec Teradata Open-source ML. Pour l’instant, seul scikit-learn est pris en charge. L’éditeur avait déjà annoncé un partenariat avec Anaconda afin de prendre en charge des packages R et Python.

De manière générale, Teradata dit simplifier le déploiement et l’exécution de modèles d’IA open source stockés à l’aide de VantageCloud.

Par exemple, le package Python lui permet d’intégrer des fonctions d’AutoML. L’éditeur couvre différents types de problèmes de régression, de classification binaire et multiclasse à travers des modèles préentraînés (GLM, SVM, Decision Forest, XGBoost, kNN). Selon Teradata, son module AutoML automatise l’exploration des features, le feature engineering, la préparation des données, le (ré) entraînement et la sélection du bon modèle. En outre, sa fonction BYOM (Bring Your Own Model) demeure d’actualité.

Mieux s’intégrer dans un écosystème élargi

L’éditeur annonce également une intégration avec la plateforme Knime. À la manière de Dataiku, celle-ci permet de développer des modèles et des pipelines de données à l’aide d’une interface low-code/no-code, ce qui favoriserait les usages en libre-service.

La prise en charge des technologies open source par Teradata n’est pas nouvelle. Seulement, les efforts d’intégration étaient jusqu’alors principalement menés par les clients et les partenaires de l’éditeur.

Sur le volet de l’IA générative, Teradata a pris du retard. Malgré l’intégration progressive de la vectorisation, le cœur de son warehouse ne prend pas encore en charge les embeddings à la manière d’un SGBD vectoriel. C’est un travail en cours, d’après Jean-Marc Bonnet. Pour l’instant, les intégrations récentes avec Google Vertex AI, Amazon SageMaker et Microsoft Fabric servent davantage des cas d’usage analytiques et de ML.

« Notre stratégie consiste à simplifier et à optimiser des charges de travail analytiques et de machine learning dans des environnements souvent très complexes », confirme Jean-Marc Bonnet.

Les solutions d’acteurs comme Google Cloud, Databricks ou encore Snowflake ont largement remplacé les appliances Intelliflex de Teradata déployées sur site. Alors qu’il détenait une place importante, à l’instar d’Oracle, Teradata a mis du temps à réagir et sait qu’il doit s’intégrer dans les architectures cloud existantes. D’autant que ces coopétiteurs sont plus proches des communautés open source.

« Nous ne voulons pas tout remplacer par Teradata. Pas du tout », souligne Jean-Marc Bonnet. « Il s’agit plutôt de montrer que nous savons nous intégrer dans un écosystème varié, qui restera diversifié et complexe, tout en fournissant les outils nécessaires pour optimiser les processus lorsque cela est pertinent ».

Teradata en (légère) perte de vitesse

Le groupe a définitivement pris le train du « pay as you go » : les licences perpétuelles et la vente d’équipement ne représentent qu’une part marginale de ses revenus. Au deuxième trimestre fiscal 2024, il a enregistré 5 millions de dollars de CA « perpétuel » quand les revenus récurrents représentent 388 sur 436 millions de dollars de chiffre d’affaires (contre 462 millions de $ au Q2 2023). Ses revenus récurrents annuels liés au cloud public atteignent 542 millions de dollars, en hausse de 31 % sur un an sur un total de 1,46 milliard de dollars d’ARR.

« Notre activité cloud public représente 37 % de notre ARR à la fin du deuxième trimestre, ce qui montre bien que beaucoup de nos clients s’engagent avec nous, et ce, sur le long terme », assurait Steve McMillan, CEO de Teradata, lors de la présentation des résultats le 5 août dernier.

Or, « l’érosion » des déploiements sur site est plus forte qu’à l’accoutumée en 2024. Un phénomène auquel Teradata savait être confronté. L’éditeur estime que la situation devrait se stabiliser l’année prochaine. Certains clients avaient pris la décision de décommissionner sa plateforme il y a quelques années.

La baisse de son chiffre d’affaires et un besoin « d’améliorer l’exécution » ont amené Teradata à annoncer le licenciement de 9 à 10 % de ses effectifs en août dernier, principalement dans la fonction des ventes.

Pour approfondir sur Data Sciences, Machine Learning, Deep Learning, LLM