Avec DPS, Hortonworks devient unificateur de sources de données
Avec Hortonworks Data Plane Service, la société va plus loin que le data lake et se pose en tour de contrôle de sources de données pour créer un environnement homogène.
Hortonworks franchit une nouvelle étape de son évolution. La société, pionnière du monde Hadoop, a montré qu’elle comptait désormais se positionner, non plus comme un acteur du data lake dans lequel sont centralisées toutes les données, mais comme une véritable tour de contrôle à partir de laquelle sont monitorées toutes les sources de données. Des clusters Hadoop à l’unification des sources pour en favoriser la gouvernance et la sécurité…Hortonworks change de dimension avec son Hortonworks Data Plane Service. Une « nouvelle catégorie émerge », lance d’ailleurs Scott Gnau, le CTO de la société, qui orientait autrefois la technologie chez Teradata. Et cette nouvelle catégorie d’outils est une réponse, selon lui, à un constat : celui de la dissémination des sources de données et de la diversification de ces mêmes données. Il convient désormais d’exploiter la valeur de cette donnée là où elle se trouve, explique-t-il en substance dans ce même billet de blog. Que ce soit dans des clusters Hadoop, des lacs de données, des entrepôts de données, des flux de données (Hortonworks dispose de HDF à son catalogue), l’heure est à la pacification des sources et à leur intégration, pour créer un ensemble homogène dans l’entreprise.
DataPlane Service (DPS) s’apparente ainsi à une plateforme de services qui réunissent les sources de données disparates et multi-environnements (Cloud ou sur site), de plusieurs types (au repos ou en mouvement) pour au final leur appliquer des politiques de sécurité et de gouvernance. Mais, encore une fois, depuis la source même de ces données.
Pour cela, Hortonworks a conçu sa plateforme de services sur deux briques Open Source, Apache Atlas et Apache Ranger, qui apporteront ces services d’intégration, de gouvernance et de sécurisation des données. Altas permet par exemple de classer les données, de gérer les métadonnées, et d’assurer une forme de traçabilité (lineage). Ranger, de son côté, unifie les politiques de sécurité des différentes sources. Des services de sécurité s’ajoutent à ces composants en apportant une gestion des accès par rôle. Enfin, un catalogue de services de données (Data Service Catalog) comprendra à terme une série de services pour étendre la plateforme avec des applications tierces – développées par exemple par des partenaires. Ces trois éléments forment les composants cœur de DPS. Les services de cette plateforme ayant pour vocation de faire éclore d’autres applications partenaires ou développée par Hortonworks.
Un premier service de gestion du cycle de vie de la donnée
D’ailleurs la société a développé une première application qui exploite DPS. Celle-ci vise à « simplifier les opérations complexes liées au déplacement des données, à la réplication, à la sauvegarde et permettra également de mettre en place du tiering pour optimiser les coûts en fonction de l’usage des données », explique encore le CTO d’Hortonworks. Les outils DPS peuvent par exemple automatiser le partionnement des données pour faciliter le déplacement des plus utilisées (chaudes) vers des supports de stockage performants (et plus couteux) et les plus froides vers des supports moins onéreux. Hortonworks affirme également travailler sur un service DPS dédié aux tâches de data steward.
Si Hortonworks n’est pas le premier à ajuster un positionnement de hub de données – on se rappelle MarkLogic et de son concept de hub opérationnel - , le spécialiste suit aussi une tendance forte des acteurs installés à l’origine sur le segment des distribution Hadoop : celui de la diversification des cas d’usage. Cloudera a ainsi développé son Enterprise Data Hub tandis que MapR de son côté a placé sur le marché sa Converged Data Platform. Avec la prise en compte et l’intégration de HDFS par tous les acteurs de la gestion de données, « l’avantage concurrentiel des pures produits Hadoop s’est considérablement réduit », avait d’ailleurs résumé Gartner dans son Magic Quadrant de février 2017 portant sur les solutions de gestion des données pour l’analytique. Hortonworks semble le confirmer.