SAP

SAP accélère dans l’intégration de données avec Data Hub et Vora

SAP Data Hub et Vora sont tous deux des outils d'intégration de données. Data Hub cible la gestion de données provenant de sources très diversifiées tandis que Vora se concentre spécifiquement sur les lacs de données. Avec ces deux solutions, SAP cherche à couvrir l’ensemble du spectre et des besoins, notamment face à Oracle.

SAP souhaite couvrir au maximum le spectre de l’intégration des données en annonçant la sortie du nouveau SAP Data Hub et une mise à jour importante de Vora. Les deux offres sont toutes deux dédiées à l'intégration de données et apportent ainsi aux entreprises un moyen de donner de la valeur aux données collectées. Néanmoins, leurs objectifs sont spécifiques et leurs approches différentes comme l’explique Ken Tsai, vice-président de SAP, responsable de la plate-forme Cloud et du marketing des activités de gestion de données.

Lancé tout récemment, Data Hub a une mission beaucoup plus large. Il s’agit d'aider les entreprises à gérer des environnements de données complexes en construisant des flux provenant de sources très diversifiées. La multiplication des sources rend en effet de plus en plus compliquée l’intégration de données.

De son côté Vora, présent au portefeuille de l’éditeur allemand depuis deux ans, est un outil qui permet d'obtenir des données stockées dans les lacs de données Hadoop, via Apache Spark. Si Data Hub utilise bien Vora en sous-main, les solutions se montrent cependant très différentes.

Solutions similaires, objectifs différents

« Data Hub a une mission essentielle qui porte sur la création de flux de données et ce, afin d'en assurer une utilisation plus efficace. Vora a une approche plus orientée sur la pure capacité informatique », selon KenTsai. « Les deux sont très complémentaires. Data Hub est d’ailleurs né de nos travaux effectués sur Hadoop et de la confrontation aux besoins des clients, au-delà du seul moteur de calcul ».

Data Hub est d’autant plus précieux aujourd’hui que la centralisation des données devient compliquée, complète Ken Tsai pour qui cette solution permet d’unifier la gestion des données tout en conservant ces dernières dans leurs référentiels sources.

Avec ce portefeuille complet, SAP cible non seulement les développeurs, mais également les architectes d'entreprise, les data scientists et les analystes proches des commerciaux. L’approche de l’éditeur repose sur un zonage particulier du SI. SAP distingue la partie applications, la partie entrepôts de données, et les lacs de données. « Chaque zone est en interaction avec les autres dans un flux continu de données », estime Ken Tsai.

Côté client, SAP met en avant le fabricant de produits pharmaceutiques McKesson, un historique de l’éditeur qui a déployé Data Hub afin de consolider les données de plusieurs systèmes en une unique « source de la vérité ».

« Notre travail consiste à aider nos clients à améliorer les soins aux patients et à accroître l'efficacité de la chaîne de valeur des soins de santé", détaille Adam Fecadu, architecte en chef chez McKesson, basé à Saint-Paul, aux Etats-Unis. «Il nous faut donc nous concentrer sans relâche sur leurs problèmes les plus difficiles. Avec de nombreuses sources de données, et de multiples environnements informatiques, nous avons besoin d'une solution de données unifiée pour tous les départements ainsi que pour les unités commerciales."

Vora permet de plonger en profondeur dans de grands volumes de données

Si Data Hub adresse donc complexité et diversité, Vora est de son côté conçu pour permettre aux entreprises de traiter les plus gros volumes à partir d’Hadoop et d’en tirer le maximum de valeur, explique Ken Tsai. La version 2.0 a été ré-architecturée à l'aide de conteneurs Kubernetes, afin d’améliorer l'évolutivité et de réduire la complexité du déploiement.

CenterPoint Energy, un fournisseur d'électricité et de gaz naturel basé à Houston au Texas, utilise par exemple Vora et SAP Hana – la base In-Memory de l’éditeur allemand - pour gérer et analyser les données provenant des compteurs intelligents déployés chez ses clients. Son application utilise Hana pour suivre et analyser en temps réel la santé de son infrastructure tout en transférant les données vers Hadoop. Dans ce contexte, Vora est utilisé pour traiter et analyser l’historique – une fois dans Hadoop - afin de déterminer les tendances et les habitudes d'utilisation. Les données peuvent également être associées celles « en production » dans Hana et permettre ainsi une approche plus proactive des coûts et des flux de consommation.

Traiter les données in-situ

Côté client, les cas d’usages spécifiques tendent donc à prouver la pertinence de l’approche. Du côté des analystes, le son de cloche est quasiment le même. Pour Stewart Bond, directeur de recherche de logiciels d'intégration de données chez IDC, « Avec Data Hub, SAP va dans le bonne direction, car il permet aux utilisateurs de travailler sur des données sans avoir à les déplacer. C'est un peu différent de ce que l’éditeur a fait dans le passé, où vous deviez utiliser les données dans l'environnement SAP pour pouvoir les manipuler. C'est une approche similaire à ce que nous voyons par ailleurs sur le marché ». Un changement positif donc mais plutôt un rattrapage d’une tendance lourde du marché.

« Les données sont devenues trop volumineuses pour être déplacées et les données déplacées finissent toujours par former un sous-ensemble qui vient encore alourdir l’administration. Les entreprises qui utilisent des référentiels spécifiques au Big Data (comme Hadoop) pré-traitent les données avant qu'elles ne soient utilisées. Durant ce prétraitement, les données sont filtrées, nettoyées, placées dans des jeux de données plus petits », détaille Steward Bond pour justifier le changement de paradigme de l’éditeur.

Selon lui, Vora est une solution similaire mais qui permet de résoudre un problème différent.

« Vora a été conçu pour se connecter au framework Hadoop, là où Data Hub est plus large, avec ses capacités de multisource et son approche orientée sur les cas d’usage et de la création de flux spécifiques », explique Steward Bond. « SAP tire parti de l'investissement effectué dans Vora en mettant cette technologie et ces fonctionnalités à la disposition de Data Hub - lorsque ce dernier est en présence d’Hadoop - afin de permettre le traitement des données ». Du coup, en répondant à des problématiques différentes, les deux solutions ciblent deux publics distincts.

« Ceux qui cherchent à construire des modèles d’exploitation des données sont confrontés à   des ‘briques Lego’ et tout le monde souhaite que ces outils puissent passer entre les mains d’un maximum de personnes dans l’entreprise, que ce soit celles des développeurs ou celles des métiers », détaille également Ezra Gottheil, analyste chez Technology Business Research. « SAP a l’habitude de faire des applications, voire des applications spécialisées, mais il ne peut plus adresser l’ensemble des besoins spécifiques. Du coup, proposer des outils désormais ouverts aux environnements tiers est un moyen de s’ouvrir de nouveaux marchés. »

Répondre à la concurrence

De fait, SAP est confronté à une forte concurrence sur le marché de la donnée et doit proposer un portefeuille complet pour pouvoir suivre le rythme.

Oracle, par exemple (le grand rival de l’éditeur allemand) pousse Data Integration Platform Cloud, qui propose l'intégration des données, la qualité des données et la gouvernance des données sur une unique plateforme Cloud.

Pour Steward Bond, « Data Hub a une orientation similaire, mais SAP doit répondre sur trois niveaux - gouvernance des données, flux de données et intégration des données – et a donc encore besoin de développer son offre pour la compléter. La gouvernance des données est bien présente mais d’un point de vue plutôt technique, là où l’on doit s’attendre à l’administration de metadonnées métiers ».

SAP devrait donc revenir très rapidement vers le marché afin de répondre à la cadence rapide imposée par les pure-players et les acteurs historiques de la gestion de données.

 

Pour approfondir sur Big Data et Data lake