freshidea - Fotolia
Hortonworks, Red Hat et IBM placent les containers au cœur de la gestion des Big Data
Hortonworks s'associe à Red Hat et IBM pour collaborer autour d’une architecture de référence commune pour absorber les traitements des Big Data. Celle-ci fera usage des containers et de Kubernetes, et pourra fonctionner sur un mode hybride, à la fois dans le cloud et sur site.
Hortonworks, IBM et Red Hat ont décidé d’unir leurs forces autour du projet Open Hybrid Architecture Initiative, dont l'objectif premier est de bâtir une architecture commune pour le Big Data qui puisse s’exécuter à la fois dans le cloud et sur site, dans le datacenter des entreprises. Cette alliance a été annoncée lors de l’événement Strata Data Conference.
Sans trop surprise, Kubernetes et les containers servent d’épine dorsale à ce projet. Containers et cloud sont de plus en plus considérés pour motoriser les architectures de grande envergure, même s’il reste encore quelques problèmes à résoudre.
Dell EMC a également profité de cet événement pour annoncer sa collaboration avec BlueData Software, spécialiste des containers dans les environnements de données, pour présenter une architecture de référence typique du moment : proposer une approche cloud bâtie sur les containers, mais avec une exécution sur site. Ce qu’IBM propose également avec son offre Cloud Private.
L'infrastructure Big Data : changement en cours
Ces deux annonces sont en fait révélatrices d’une tendance : des changements sont en cours dans l'infrastructure pour gérer les Big Data, et les conteneurs (containers, en anglais) y occupent désormais une place centrale dans les entreprises.
L'alliance Hortonworks et l'architecture de référence de Dell EMC sont le reflet d’une mutation : les moteurs d'analyse de données et les workloads associées se diversifient - et se multiplient à vitesse grand V - , et les applications Big Data migrent vers le cloud, souligne Arun Chandrasekaran, analyste chez Gartner.
« Historiquement, le Big Data associait calcul et stockage. Cela fonctionnait assez bien quand MapReduce était le seul moteur. Aujourd'hui, un même data lake reçoit plusieurs moteurs de traitement en simultané », poursuit l’analyste. « Cela signifie que, dans de nombreux cas, les entreprises pensent à découpler calcul et stockage. »
Déconnecter le calcul du stockage
D’une manière générale, les déploiements dans le cloud découplent le calcul et le stockage, commente Arun Chandrasekaran. Cette approche suscite un intérêt marqué pour placer les workloads intensives dans des containers pour améliorer la portabilité, note-t-il.
Le glissement vers l'orchestration de containers est un indicateur : les entreprises souhaitent utiliser leur infrastructure plus efficacement, explique-t-il.
L'alliance d'Hortonworks avec Red Hat et IBM montre aussi qu'un changement fondamental est en cours autour d’Hadoop. Les projets tendent à mixer cloud et on-premise.
« De nouveau, le stockage se retrouve séparer du compute », précise à son tour Arun Murthy, chef de produit et co-fondateur de Hortonworks. « L'architecture reste cohérente, que le traitement se fasse sur site, dans le cloud ou dans un environnement multi-cloud. »
L’élasticité du cloud
Ce style d'architecture tient compte de l’élasticité du cloud. « Dans le cloud public, on ne maintient pas l'architecture en état de marche si on n'y est pas obligé », lance-t-il.
Cela tranche avec l’approche traditionnelle d’Hadoop, où les clusters sont souvent configurés pour faire face à des pics de charge élevés.
Pour Lars Herrmann, directeur général, solutions intégrées, chez Red Hat, cet accord avec Hortonworks est une étape vers l'apparition d'applications Big Data qui s’exécutent nativement sur la plateforme OpenShift. Il s'agit aussi d'accélérer le déploiement de ces applications. « Placer les applications dans des containers permet aux entreprises d'être plus agiles. Cela fait partie de la tendance que nous observons chez celles qui adoptent les méthodes DevOps », souligne-t-il.
Des applications sur site sous stéroïdes
Pour sa part, Dell EMC considère que déployer plus rapidement des applications Big Data sur site est un élément clé de cette architecture de référence. « Avec les containers, vous pouvez déployer, à la demande, plusieurs logiciels sur différentes infrastructures », explique Kevin Gray, directeur du marketing produit chez Dell EMC.
Le support du multi-cloud, soutenu par les containers est un argument très entendu et cette approche est de plus en plus répandue chez les fournisseurs d’Hadoop. A l’occasion de cette édition de la Strata Data Conference, BlueData a par exemple annoncé la mise à disposition sur Google Cloud Platform et Microsoft Azure.
Le Big Data évolue vers une architecture unique
Les gains vont se faire sentir fur et à mesure que les grandes architectures de données évolueront vers une architecture unique. Celle-ci aura à charge le traitement des données aussi bien dans le cloud que sur site, souligne à son tour Mike Matchett, analyste et fondateur de Small World Big Data.
« Les plateformes doivent être développées de manière à pouvoir gérer le modèle distribué et traiter les données distribuées. Elles seront identiques, sur site et dans le cloud. Et, dans la plupart des cas, elles seront hybrides, de sorte que les données et le traitement pourront circuler dans les deux sens », ajoute-t-il.
Pour approfondir sur Stockage de conteneurs
-
Big Data : Cloudera désormais dirigé par un ex d’Hortonworks spécialiste des fusions
-
Hadoop à l’ère du multicloud et de l’analytique en temps réel
-
Cloudera vs AWS EMR : quelle distribution Hadoop choisir pour vos projets Big Data
-
Le Crédit Agricole s’engage dans un projet Big Data pour gérer des transactions à grande échelle