Avec HANA Vora, SAP valide à son tour le choix de Spark
Pas simple de faire discuter un Data Scientist avec un analyste venu du décisionnel. Chacun a ses propres outils, ses propres données et n'accepte de parler à son rival qu'au travers de batchs. Deux mondes que SAP souhaite aujourd'hui réconcilier. Grâce à HANA, bien évidemment.
SAP rapproche encore son offre in-memory HANA du monde Hadoop. Sa nouvelle solution, baptisée HANA Vora, crée en effet un lien entre l'informatique d'entreprise avec ses ERP, ses data warehouse et sa base de données in-memory et l'univers du Big Data, avec son socle Hadoop et ses innombrables briques Open Source.
Brique où figure aujourd'hui en bonne place Apache Spark, une solution Big Data in-memory qui rencontre une adoption croissante. Plutôt que d'opposer HANA à Spark, SAP a choisi de dompter son alter-ego libre en venant se placer au-dessus et d'ouvrir l'accès aux clusters Hadoop à HANA.
Pour Daniel Schneiss, le patron de l'offre HANA et des bases de données chez SAP, c'est un moyen d'accompagner les entreprises dans leur transformation numérique. « Ce que nous avons observé, c'est qu'aujourd'hui il existe un gap important entre le monde de l'entreprise et celui du Big Data ».
Trois challenges empêcheraient ces deux mondes de communiquer. « D'une part, le monde du Big Data, c'est celui de la donnée non structurée, des bases de données qui ne sont pas ACID, du batch. Pas d'accès temps réel, pas de drill down possible dans un Data Lake. Le second challenge, c'est qu'à partir du moment où vous disposez de vos données, vous devez pouvoir prendre des décisions. L'outil doit coller à la façon doit on prend des décisions. » Pour ce haut responsable SAP, le troisième challenge, c'est le coût.
Force est de constater que stocker de l'information est bien moins coûteux sur une architecture Hadoop que sur une base de données, qu'elle soit relationnelle et a fortiori in-memory. C'est l'une des raisons du succès d'Hadoop et de ses multiples distributions dans les entreprises et ce succès, SAP ne peut plus le nier. Mieux, il va l'accompagner à sa façon avec HANA Vora, une nouvelle brique technique qui vient enrichir son offre HANA.
SAP signe un moteur de requêtage pour Apache Spark
HANA Vora (pour Vorace) est en effet un moteur de requêtage in-memory qui vient se placer au dessus du framework Apache Spark. L'idée de SAP est de donner aux analystes HANA un accès aux données stockées dans un cluster Hadoop, via des requêtes OLAP, par exemple.
Le modèle de données HANA, et donc potentiellement S/4 HANA, va ainsi s'enrichir de données déversées dans un "data lake" par des objets connectés, des logs de serveurs, sans qu'il soit nécessaire de mettre en place des réplications de données entre le cluster Big Data et la base in-memory HANA. « Une unification des données, mais sans traitement batch » résume ainsi Daniel Schneiss.
Mieux, ce moteur va lui-même être accessible aux Data Scientists qui vont pouvoir, sans quitter leur cluster Hadoop, requêter les données stockées sur HANA via leurs propres outils, leurs propres langages.
Une solution intéressante par exemple pour croiser des données générées par les équipements d'un process industriel et les données de production de l'ERP, et croiser les données CRM avec les log du site de E-Commerce.
Selon les responsables de SAP, requêter des données HANA depuis un cluster Hadoop en langage R, en C, Scala ou Spark SQL ne devrait poser aucun problème. « Vora est un moteur de requêtage pour Spark. Ce sera totalement transparent pour tous les outils Spark », a expliqué Daniel Schneiss.
« L'objectif, c'est bien que les analystes business, les experts des processus et les Data Scientist conservent tous leurs propres outils pour travailler sur les données. C'est Vora qui assure l'unification de ces mondes différents ».
En termes d'applications Rolf Schumann, CTO de SAP pour la zone MEE et EMEA a évoqué des scénarios d'usages pour HANA Vora assez classiques dans le monde du Big Data : analyse de données de santé, maintenance prédictive dans le secteur industriel, vision 360° du client dans le marketing, détection de fraude dans les institutions financières, cybersécurité.
Premier utilisateur de la solution cité par SAP, Intel qui compte exploiter HANA Vora pour réaliser des analyses OLAP sur ses clusters de données Hadoop.
Il faut néanmoins noter que connecter des outils OLAP à un cluster Hadoop et à Spark est loin d'être une idée que seuls les ingénieurs de SAP ont pu avoir. Ainsi, le projet Kylin, issu des équipes de développement d'eBay, a rejoint l'incubateur de la fondation Apache fin 2014. Celui-ci transforme virtuellement un cluster Hadoop/Hive en bons vieux cubes OLAP avec l'interface SQL qui va bien afin de satisfaire les experts du décisionnel tout en bénéficiant des capacités d'une infrastructures Big Data.
Une solution prochainement disponible tant en mode on-premise que dans le Cloud
HANA Vora sera disponible dans le courant du mois de septembre dans une version gratuite destinée aux développeurs. Celle-ci utilisable tant sur le Cloud public Amazon Web Services que sur la HANA Cloud platform de SAP.
La version commerciale sera disponible par la suite sous forme de souscription sur deux ans. Il sera possible de déployer le logiciel en mode on premise ou dans le Cloud, indifféremment.
Point intéressant, SAP annonce qu'il proposera à ses clients une édition incluant une stack Big Data complète incluant HANA Vora, mais aussi Hadoop et Spark. L'éditeur assurera alors un support de l'intégralité du stack, Hadoop compris.
Daniel Schneiss en a profité pour souligner l'implication croissante de SAP dans le mouvement open source. « Nous participons à de nombreuses communautés, et nous utilisons les API open source et nous contribuons activement avec du code. [Néanmoins] pour l'heure, HANA Vora reste bien couvert par la propriété intellectuelle SAP » précise le responsable SAP.