Hortonworks concrétise le Big Data hybride
Le nouveau logiciel Data Steward Studio de l’éditeur va permettre aux grands comptes de bénéficier de la facilité du Cloud, sans pour autant être en infraction avec le RGPD.
Hortonworks, qui édite des solutions packagées pour déployer des infrastructures Big Data, lancera d’ici à cet été Data Steward Studio (DSS), un logiciel qui unifiera la gouvernance des lacs de données lorsqu’ils seront répartis entre cluster interne et Cloud.
Selon l’éditeur, il était jusqu’ici complexe, voire dangereux, de mettre en place des architectures Big Data hybrides car rien n’était prévu pour gérer un lac de données éparpillé sur plusieurs sites.
« Lorsque vous êtes EDF, par exemple, vous manipulez à la fois des données commerciales et des données nucléaires. Vous voulez donc que tel utilisateur ait ou n’ait pas le droit de manipuler telles ou telles données. Et cela doit être absolu, il faut que cela s’applique quel que soit l’endroit où ces données sont traitées. C’est cette globalisation qu’apporte DSS », illustre Emmanuel Serrurier, en charge de l’activité d’Hortonworks pour l’Europe du sud.
Pour lui, il s’agit de mettre la gouvernance des lacs de données hybride au niveau de l’entreprise et non plus au niveau de l’infrastructure.
Pour Scott Gnau, CTO d’Hortonworks, la criticité de l’hybridation entre Cloud et lac de données sur site, va aujourd’hui au-delà des applications Big Data sensibles. « Nous sommes à un moment charnière. D’un côté, les entreprises sont tentées d’utiliser le Cloud pour innover au moindre coût, typiquement pour tester rapidement de nouveaux projets sans avoir à attendre des mois le déploiement sur site des infrastructures nécessaires. Mais de l’autre, elles se demandent comment bien le faire pour respecter le RGPD. D’autant plus quand elles voient que c’est une simple raison technique qui a plongé Facebook dans l’affaire Cambridge Analytica », a-t-il lancé, lors du salon DataWorks 2018, que l’éditeur a organisé mi-avril à Berlin et à l’occasion duquel il a présenté DSS.
Un environnement clé pour automatiser des fonctions complexes
En pratique, DSS est un environnement graphique qui automatise la complexité de deux frameworks Open source Apache - Atlas et Ranger - et il le fait pour tous les clusters Hadoop censés former un unique lac de données. Atlas sert à tracer toutes les données et à référencer leurs métadonnées, tandis que Ranger attribue leurs droits d’accès.
« Vous savez, en matière de Big Data, et même de décisionnel, c’est souvent l’environnement graphique au-dessus qui fait toute la différence », s’amuse Pierre Sauvage, consultant Big Data chez Adaltas, une ESN spécialisée dans les environnements Hadoop.
S’il confirme une demande forte pour du Big Data hybride, Pierre Sauvage estime que pratiquement aucune entreprise en France n’a essayé d’en mettre un en place. Non pas par peur des réglementations, mais à cause de la difficulté technique.
Pierre Sauvage, Adaltas
« L’hybridation est assez compliquée à résoudre dans le cas du Big Data parce que les données ont une gravité : une fois qu’on les a positionnées à un endroit et qu’elles sont très volumineuses, on ne peut plus les déplacer comme on le souhaite. Par conséquent, il faut résoudre de nombreuses problématiques techniques autour de cette contrainte. Où va-t-on lancer les jobs ? Comment doit-on synchroniser ? Quelles sont les implications sur la vitesse des traitements ? Et en termes de coûts ?... Avec DSS et sa gestion unifiée des données, il n’y a plus de contrainte et toutes les interrogations trouvent une réponse simple », dit-il.
« Nos clients ont déjà manifesté un véritable intérêt pour DSS, qu’ils voient comme la clé pour ouvrir leur infrastructure Big Data au Cloud. Renault, par exemple, est conscient que le Cloud et bien plus adapté pour ses développements, car il va lui permettre de provisionner des infrastructures à la volée, sans avoir à se demander comment interagir avec la production informatique. D’autres imaginent se servir du Cloud comme plan de reprise d’activité, car louer de l’espace en ligne leur coûtera moins cher que d’acheter un cluster de secours qui ne servira qu’une fois tous les trois ans », ajoute-t-il.
Pas encore téléchargeable gratuitement
Dans le catalogue d’Hortonworks, DSS est présenté comme le deuxième module de la couche Data Plane Services (DPS), laquelle est censée regrouper des composants accessoires dans l’exploitation d’un cluster Big Data basé sur Hadoop.
Le premier module, lancé en fin d’année dernière, est Data Lifecycle Manager (DLM), qui sert à gérer les cycles de mise en production (tests, etc.) des projets Big Data. A l’occasion de la sortie de DSS, DLM est mis à jour pour prendre en compte l’hybridation, avec une nouvelle fonction qui encapsule les données d’un environnement physique pour qu’elles soient exploitables sur un Cloud public.
A terme, Hortonworks devrait ajouter à DPS les modules Data Analytics Studio (un tableau de bord pour effectuer des requêtes sur un lac de données hybride), ainsi qu’une nouvelle version de l’accessoire Cloud Break, qui servait jusqu’ici à déployer facilement un lac de données sur AWS, Google Cloud, Azure ou une infrastructure OpenStack, mais qui prendra désormais en compte l’hybridation depuis une installation sur site.
Les principaux logiciels d’Hortonworks restent HDP (Hortonworks Data Platform), à savoir tout le nécessaire pré-packagé pour déployer Hadoop sur un cluster de serveurs, et HDF (Hortonworks Data Flow) qui intègre tous les outils pour collecter des données depuis différentes sources, les traiter à la volée, puis les ingérer dans un cluster Hadoop.
HDP et HDF sont téléchargeables gratuitement.
Officiellement, Hortonworks ne vend pas de licences de ses produits, mais de l’accompagnement pour architecturer et supporter les clusters fonctionnant sous ses produits. Cet accompagnement est facturé au nombre de serveurs dans le cas de HDP et au nombre de cœurs dans les serveurs dans le cas de HDF.
Toutefois, pour un déploiement en Cloud sur AWS, Google Cloud, ou Azure, le support sera respectivement facturé par Amazon, Google et Microsoft. Il est à noter que l’on trouve également un service HDP parmi les projets en tests chez OVH.
De l’aveu de d’Emmanuel Serrurier lui-même, il n’existe pas encore de barème tarifaire pour DSS et même pas non plus pour DLM. Le patron de l’Europe du Sud estime néanmoins que ce sera le cas d’ici à cet été. On ignore cependant si ces deux modules rejoindront pour l’occasion la liste des solutions en téléchargement gratuit.
Hortonworks progresse en dehors des USA
En France, Hortonworks a conquis 50 clients - soit deux par mois depuis la création de la filiale française en 2016 – parmi les 250 très grands comptes du pays. Outre la plupart des banques, citons EDF, la SNCF, la RATP, Renault, Orange, Safran, ou encore La Caisse des Dépôts.
A l’international, Hortonworks totalise un CA de 261,8 millions de dollars en 2017 pour des dépenses qui s’élèvent à 204 millions de dollars. L’éditeur se félicite d’être enfin à l’équilibre au bout de sept années d’existence, notamment grâce une part d’activité en dehors des USA qui représente désormais un tiers de ses revenus, contre 16% auparavant.
« L’avis du marché français est qu’Hortonworks est en train de restaurer la confiance dans ses produits. DSS est une vraie nouveauté et nous observons qu’elle répond exactement aux attentes de nos clients. Ce n’était pas le cas l’année dernière, où l’éditeur n’avait pour ainsi dire rien annoncé lors de son Dataworks Summit 2017 », analyse Pierre Sauvage.
Selon Scott Gnau, le développement de DSS serait d’ailleurs une initiative des équipes européennes.
Cloudera, le concurrent direct d’Hortonworks et qui vend une version customisée d’Hadoop, affiche un meilleur CA, soit 367,4 millions de dollars sur l’année passée. Mais ses dépenses sont également plus élevées, soit 390 millions de dollars, et son bénéfice est négatif. Dans son bilan financier annuel, Cloudera ne précise quelle part de son CA représente les ventes en dehors des USA, mais observe que ces ventes ont augmenté de 66%.
La prochaine étape pour Hortonworks devrait être le lancement de HDP 3.0. Basée sur l’Open source Hadoop 3.0 apparue en décembre dernier, cette solution devrait apporter l’interopérabilité avec des applications en containers et la faculté de segmenter un lac de données en plusieurs arborescences (namenodes). En outre, elle devrait consommer moins d’espace de stockage.