Worawut - stock.adobe.com
Datasphere : SAP veut unifier les données sous une seule bannière
SAP a présenté hier Datasphere, une « évolution » de SAP Data Warehouse Cloud. L’entrepôt de données se dote de capacités de « découverte, de modélisation et de distribution de données ». L’annonce s’accompagne d’un partenariat avec Databricks, Collibra et DataRobot, voulu comme le symbole de l’ouverture de la pile technologique du groupe allemand.
En 2020, SAP avait fait évoluer SAP Data Warehouse Cloud (DWC). Il avait présenté une capacité de fédération de requêtes, permettant depuis la plateforme d’exploiter « les données SAP et non SAP ». Il s’agissait d’encourager une « transition en douceur » vers le cloud tout en gardant la possibilité de maintenir des traitements hybrides.
Annoncé lors de la présentation « Data Unleashed » le mercredi 8 mars, Datasphere s’inscrit dans la continuité de cette feuille de route. Plutôt que de forcer les entreprises à migrer toutes leurs données et applications sur une plateforme managée dans le cloud par SAP, l’éditeur pousse l’idée qu’il est possible de travailler à l’aide de la virtualisation de données et de la fédération de requêtes, ce qui permet, en principe, d’analyser les données présentes dans les systèmes sur site et dans le cloud, qu’elles soient dans des systèmes SAP ou non. Le tout doit permettre l’avènement d’un « Business Data Fabric ».
« Le tissu de données d’entreprise est la couche qui vous permet d’assurer, à l’échelle de l’entreprise, l’accès aux données en libre-service, peu importe où elles résident », vante Juergen Mueller, CTO de SAP.
« SAP Datasphere suit une approche “federation first”. Cela signifie que vous laissez les données là où elles résident. Vous construisez vos modèles, puis vous décidez plus tard si vous voulez répliquer des tables complètes, créer des vues persistantes pour répondre à la charge de travail du système source, afin de sortir les données et améliorer les performances pour l’utilisateur final », explique en termes un peu plus techniques Kevin Poskitt, Solution Owner, SAP Data Intelligence, chez SAP.
Par la même occasion, l’éditeur rappelle que les données les plus critiques et les plus importantes des entreprises résident dans des systèmes SAP.
« Nous savons que les données SAP sont parmi les données d’entreprise les plus précieuses que vous possédiez », vante Juergen Mueller. « Elles incarnent les intentions de vos clients et partenaires. Ce sont des données financières, de fabrication, d’exécution, de supply chain, RH, de procurement, des prévisionnels, etc. ».
Data Warehouse Cloud devient Datasphere
En clair, l’éditeur se positionne au centre de la photo d’un marché largement « trusté » par Snowflake, Databricks, AWS ou encore GCP, mais en permettant à ses clients d’utiliser leurs outils ou services cloud. Par exemple, pour visualiser les données métiers, Datasphere est non seulement compatible avec SAP Analytics Cloud (le successeur de Business Object), mais également Tableau et Power BI.
Dans le détail, Datasphere agrémente l’existant Data Warehouse Cloud d’un catalogue de données, d’un mécanisme de réplication des flux de données et d’un modèle « analytique » (d’autres éditeurs diraient sémantique). Plus précisément, Datasphere émane de la fusion de Datawarehouse Cloud et de SAP Data Intelligence Cloud (DIC). DIC est une solution d’intégration, de data cataloging et d’orchestration de pipelines de machine learning.
Le data catalog de Datasphere prend pour l’instant en charge les objets de DWC et d’Analytics Cloud, mais devrait supporter prochainement les métadonnées issues des données SAP BW, ECC et S/4HANA. Pour les objets non SAP, l’éditeur compte sur son partenariat avec le spécialiste belge de la gouvernance, Collibra. En ce sens, SAP promet une « bidirectionnalité » entre son data catalog et celui de Collibra.
Quatre partenaires pour muscler la « Business Data Fabric »
Car, SAP insiste : Datasphere est ouvert à un écosystème de partenaires. Ainsi, l’éditeur mise sur la disponibilité d’une capacité de flux de réplication pour copier des vues SAP CDS (des vues qui comprennent la logique applicative de systèmes ABAP), des tables associées à des clés primaires et des objets, comme des extracteurs ou des objets BW. Cette réplication supporterait les gros volumes et permettrait de copier les données « de la même source vers la même cible de manière simple et rapide ». Selon Juergen Mueller, la configuration des pipelines est automatique. Plus tard, une intégration avec Confluent, principal contributeur d’Apache Kafka, permettra de tirer des flux en quasi temps réel depuis et vers Datasphere.
Avec les flux de réplication, les sources peuvent être ECC, BW, S/4HANA Cloud, S/4HANA On-Premise, les applications ABAP et Azure SQL. Parmi les cibles, l’on trouve pour l’instant HANA Cloud et les instances data lake SAP HANA Cloud. Ces instances, qui ne sont autres que des lakehouses, prennent en charge les fichiers CSV, Parquet et ORC. Les données de ces fichiers peuvent être requêtées en langage SQL.
Une intégration avec Databricks devra permettre d’appliquer des transformations et d’exécuter des modèles de machine learning via des notebooks Jupyter. Là encore, il sera possible de copier ou de visualiser les données SAP dans le Lakehouse Databricks avant d’y appliquer des algorithmes ML. Selon Ali Ghodsi, PDG de Databricks, ces modèles pourront être déployés à travers la PaaS SAP BTP. Pour l’instant, ces éléments sont encore « en discussion dans la feuille de route », précisent les porte-parole de SAP. Actuellement, SAP utilise le projet open source FedML pour permettre l’entraînement et l’inférence des modèles depuis Databricks. FedML permet également d’ajouter à « la sauce » des données en provenance d’ADLS et Azure Data Explorer, AWS Athena et Redshift, Google BigQuery, ainsi que Snowflake, en sus des données SAP cloud et on-premise.
La librairie FedML de SAP permet déjà de faire la même chose avec Azure ML, Google Vertex AI et Amazon Sagemaker. De surcroît, un partenariat avec DataRobot devra permettre de connecter la plateforme AutoML à SAP HANA, BW ou leurs déclinaisons cloud à l’aide de connecteurs JDBC.
Un renommage doublé d’une main tendue
Malgré les limites actuelles, SAP veut que l’on retienne son ouverture vers les écosystèmes analytiques. « Il est clair que SAP se rend compte que toutes les données ne se trouvent pas dans SAP Datasphere et que cette plateforme ne dispose pas de toutes les fonctionnalités nécessaires pour gérer toutes les sources de données disparates d’une organisation », observe Steward Bond, analyste chez IDC.
Mais DataSphere est un renommage de DWC, quoi qu’en dise l’éditeur.
Pour les clients de DWC, la transition effectuée à partir du 8 mars 2023 sera indolore, promet l’éditeur. « Cette mise à jour sera automatique et les clients existants de DWC continueront d’utiliser leur souscription ou leur offre CPEA, sans interruption », écrit un porte-parole de SAP à la question d’un usager. « Toutes les fonctionnalités existantes dans DWC demeurent dans Datasphere ».
Jon ReedCofondateur et analyste, Diginomica
Ce ne sera pas la même chose pour les clients de Data Intelligent Cloud. La solution continuera d’évoluer séparément. « Au fur et à mesure que nous ajouterons des fonctionnalités dans Datasphere, les clients auront le choix de migrer vers la solution, s’ils le souhaitent », avance Kevin Poskitt.
Alors, pourquoi renommer DWC ? C’est une vieille habitude chez SAP qui ne manque pas de faire grincer des dents (et amuser certains, chez SAP). Même HANA 2, aurait pu s’appeler HANA 1.3 ou HANA 1.5, mais les responsables marketing de SAP en ont décidé autrement, selon les dires de Denys Van Kampen, un expert SAP BTP chez SAP et auteur du livre « SAP HANA 2.0 : an introduction ».
SAP marque donc le coup d’une mise à jour majeure. « SAP disposait déjà d’API pour accéder à certains outils non SAP, mais il essaie maintenant de fournir le contexte commercial [via la modélisation sémantique] », indique Jon Reed, cofondateur et analyste chez Diginomica. « Car bien souvent, lorsque vous extrayez des données d’un système, vous perdez les métadonnées et le contexte commercial et vous n’en tirez pas la même valeur. C’est la grande nouveauté de cette version ».
Cibler les candidats à la migration
L’éditeur allemand semble tout de même préparer la migration de ses clients utilisant encore BW 7.5 (dont la fin de support est prévue pour 2027) vers Datasphere. L’éditeur anticipe également la fin du support de BW/4HANA, fixée pour 2040 en « améliorant les capacités » de son outil de conversion SAP BW Bridge. S’il s’agit, dans un premier temps, de permettre les traitements hybrides, BW Bridge doit aussi accélérer le processus de migration.
« Vous pouvez utiliser les fonctionnalités et les compétences SAP BW existantes pour déplacer 70 à 80 % de vos artefacts SAP BW et SAP BW/4HANA existants vers SAP Datasphere », assure Juergen Mueller, dans un billet de blog.
Jon ReedCofondateur et analyste, Diginomica
La présence remarquée de partenaires comme Accenture, Deloitte, EY, Capgemini, IBM et PWC tend à prouver que l’éditeur ne prépare pas seulement l’avènement de sa « Business Data Fabric ». SAP Datasphere est accessible depuis la BTP. Sa tarification dépend de la consommation de ressources.
« C’est un avantage pour les clients de Data Warehouse Cloud, car ils ont accès à plus de fonctionnalités, mais il y aura des considérations de licence pour les nouveaux clients », prévient Jon Reed. « Ils devront étudier la question en fonction des outils et des plateformes analytiques qu’ils peuvent avoir chez d’autres fournisseurs ».
Les clients de SAP Analytics Cloud présents lors de Data Unleashed attendaient, eux, l’accès en temps réel aux tables SAP, afin de mettre à jour des tableaux de bord en temps réel. « C’est une fonctionnalité sur la feuille de route prévue pour 2024 », indique un porte-parole du groupe allemand.