Cet article fait partie de notre guide: Spark et SQL-On-Hadoop : vers un Hadoop augmenté

Hortonworks muscle ses capacités d’automatisation de flux

L’expert Hadoop se paie la société Oxyara, premier contributeur du projet Open Source NiFi. Celui-ci servira de socle à une solution de gestion de flux massifs, taillée pour l’Internet des objets.

Parce qu’il n’y pas qu’Hadoop dans la vie du  Big Data, Hortonworks a décidé d’ajouter à son catalogue de produits un outil avancé de gestion de flux de données, capable d’automatiser et d’administrer leur routage d’un système à l’autre. Et pour concrétiser son ambition, le pure-player Hadoop a préféré s’accaparer l’expertise de la société Onyara.

Cette jeune société, fondée il y a moins d’un an, rassemble la matière grise - ils en sont les premiers contributeurs - du projet Open Source NiFi, qui formera l’ossature de base de la nouvelle plateforme d’Hortonworks, Hortonworks DataFlow. NiFi est en fait né il y a 9 ans à la NSA. L’agence américaine utilisait un projet de gestion de flux de données en interne, baptisé Niagara Files pour transférer les données entre ses nombreux systèmes. Dans le cadre de son programme NSA Technology Transfer Program, l’agence a entrepris d’ouvrir le code de son projet, jusqu’alors propriétaire, et d’en confier la gouvernance à la Fondation Apache en novembre 2014, sous le nom de NiFi. Dans l’incubateur de l’institution Open Source depuis cette date, NiFi a été élevé au rang de premier niveau de la fondation en juillet dernier. Une étape certainement clé pour Hortonworks dans l’annonce officielle de son nouveau produit.

Des passerelles vers Kafka et Spark

A l’origine pensé pour faire l’acquisition de données issues de capteurs, NiFi s’est transformé en une solution d’entreprise capable de prendre en compte un volume important de flux de données, de façon bi-directionnelle et surtout, quel que soit la technologie, le format et le standard des données et des capteurs au départ et en bout de chaîne.  Selon Onyara, NiFi propose également de fonctions de sécurité et de gouvernance avancées de la donnée, ainsi qu’une interface HTML5 qui permet d’en faciliter la manipulation. On peut par exemple considérer que NiFi sert de ciment entre d’autres projets emblématiques de la sphère analytique et traitement de flux en temps réel. Des passerelles d’intégration ont été développées, ou sont en cours, pour relier NiFi à Spark, Storm, Kafka, Flume et Sqoop, et évidemment Hadoop, confie également la société, toujours sur son blog.

 

Si Hortonworks compte faire évoluer ce produit distinctement, la société présente logiquement DataFlow et NiFi comme un complément à son Hadoop Data Platform (HDP). Celle-ci se verra doter ainsi d’une capacité d’intégration massive de flux, comme l’imposent les réseaux de capteurs et plus globalement l’Internet des objets – Internet of Anything, comme l’indique Scott Gnau, ex- Teradata, aujourd’hui CTO d’Hortonworks. DataFlow permettra de collecter, de conduire et d’administrer les données de l’Internet des objets, résume-t-il. Depuis DataFlow, les données et les métadonnées pourront être stockées dans HDP,  traitées, puis renvoyées vers DataFlow pour apporter davantage d’éléments de contexte, décrit Hortonworks.

Onyara de son côté, compte bien profiter des capacités commerciales et marketing d’Hortonworks pour faire avancer la technologie, et au final, donner un élan supplémentaire au projet Open Source et à sa communauté.

Pour approfondir sur Big Data et Data lake