4 critères pour comparer les distributions Hadoop
En passant à la loupe les spécificités des distributions Hadoop, vous pouvez mieux identifier l’offre de support qui convient le mieux à votre entreprise
Même si les composants qui forment Hadoop sont Open Source, il existe de nombreux gains à payer un fournisseur pour souscrire à une offre entreprise de la plateforme. Une souscription payante donne accès par exemple à un support technique, à de la formation, ainsi qu’à des fonctions qui ne sont pas disponibles dans la version communautaire. Si les versions Entreprise comportent toutes des composants cœurs d’Hadoop, on peut les distinguer en regardant ce que chaque acteur propose au-delà du noyau ouvert.
Et les rangs de ces fournisseurs se sont très récemment resserrés. A commencer par Pivotal qui a décidé de stopper sa propre distribution Hadoop, préférant rallier la cause Hortonworks. Il reste toutefois un groupe de fournisseurs qu’il convient de considérer : des spécialistes du secteur, des fournisseurs de Cloud et deux des géants de l’IT.
Afin de déterminer lequel correspond le plus à votre entreprise, cet article fait un comparatif des distributions Hadoop en mettant en avant leurs spécificités : leur modèle de déploiement, les fonctions Entreprise, la sécurité, la protection des données et les services de support.
Il faut aussi noter que même si Hadoop a été conçu pour proposer des fonctions de stockage scalable et un mode distribué très performant, votre propre performance peut parfois varier en fonction de l’implémentation du logiciel. Mais pour beaucoup, les problèmes de performances dépendent surtout des applications. Pour répondre à ce problème, il convient d’examiner plus en détail comment chaque distribution Hadoop répond à vos besoins.
1 – Modèle de déploiement Hadoop
La plupart des fournisseurs Hadoop supporte plusieurs méthodes de déploiement, mais les offres de Microsoft et AWS sont uniquement déployées dans le Cloud. Microsoft s’adosse à sa plateforme Azure pour HDInsight, un service managé qui repose sur la plateforme HDP (Hortonworks Data Platform) d’Hortonworks – la même distribution désormais revendue par Pivotal. AWS quant à lui exploite EC2 et S3 pour motoriser Amazon Elastic MapReduce (EMR) qui associe sa propre distribution Hadoop à d’autres outils. De plus, EMR dispose d’une option qui permet d’utiliser la distribution de MapR au lieu de celle d’AWS.
Le modèle de déploiement dans le Cloud offre un moyen rapide pour provisioner un cluster Hadoop. Microsoft et AWS permettent aux utilisateurs de dimensionner leur environnement à la demande pour répondre à leurs besoins en matière de compute et de stockage. Cette élasticité est pratique pour les entreprises dont les besoins varient dans le temps.
Si les autres acteurs du monde Hadoop, comme Cloudera, Hortonworks, IBM et MapR, proposent tous des déploiements Cloud, ils ne s’en tiennent pas uniquement à ce modèle. Les utilisateurs ont ainsi la possibilité de télécharger une distribution qui peut être déployée sur site ou dans un Cloud privé, et ce sur des serveurs Linux et Windows. Cloudera et MapR mettent aussi à disposition des versions bac à sable qui peuvent s’exécuter dans des environnements virtuels comme VMware.
Ce qu’il faut retenir : Il faut évaluer si votre entreprise préfère gérer son propre environnement Big Data ou s’appuyer sur un service hébergé. Gére r son environnement nécessite la surveillance et la maintenance logiciel et le contrôle en continu du système – que ce système soit hébergé sur site physiquement ou via un service Cloud. L’option sur site est à privilégier si vous disposez des bonnes compétences en interne, et si vous connaissez déjà vos besoins et vos politiques de sécurité en la matière.
L’alternative est de s’appuyer sur une plateforme de services hébergée qui vous épaulera dans la configuration, le lancement, la gestion et le contrôle des opérations. Cette option est à privilégier si vous n’êtes pas sûr de la capacité de votre système et surtout, si vous vous attendez à ce qu’elle augmente à terme. Avec le Cloud et des services hébergés, vous obtiendrez l’élasticité nécessaire pour des ressources de stockage et de calcul.
2 – Les fonctions Entreprise des distributions
Chez les trois fournisseurs indépendants, l’approche en matière de développement est différente. Cloudera augmente le cœur Hadoop avec des add-ons développés en interne – à l’image d’Impala, le moteur SQL-on-Hadoop ; les outils d’administration Cloudera Manager ou encore Kudu, un remplaçant de HDFS pour le temps réel. Généralement, la société met en Open Source ses technologies après les avoir déployées. D’un autre côté, Hortonworks met en avant le fait que « l’innovation nait à 100% dans la Fondation Apache, et qu’il n’y a pas d’extensions propriétaires ». Les technologies add-ons, comme par exemple Ambari, sont versées dès le départ dans la communauté. Hortonworks s’est également associé à IBM et Pivotal pour créer l’Open Data Platform Initiative (ODPi), dont le but est de développer un ensemble de composants Hadoop standards. Les membres d’ODPi affirment que cela doit améliorer l’interopérabilité et minimiser le verrou-vendeur.
MapR, quant à lui, a choisi une troisième voie en développant son propre système de fichiers, MapR-FS, en remplacement d’HDFS, sa propre base de données NoSQL (MapR-DB) , ainsi que d’autres technologies clés pour supporter des déploiements de grands clusters avec des performances élevées. MapR se positionne également sur le temps réel et le streaming de données. Fin 2015, la société a mis en avant sa Converged Data Platform, qui combine Hadoop, MapR-FS et sa base NoSQL avec le moteur Spark et une nouvelle technologie de streaming d’événement baptisée MapR Streams pour gérer à la fois le batch et le temps réel.
D’un point de vue fonctionnel, la version Entreprise de Cloudera CDH offre des outils pour la gestion opérationnelle, le reporting et la continuité d’activités. Cela comprend des composants pour le redémarrage de services, les mises en jour en continu et la récupération après sinistre automatique. L’offre de MapR propose des outils capables de mieux gérer la résilience et la fiabilité des données dans des clusters Hadoop ainsi que la haute disponibilité. Hortonworks fournit quant à lui un monitoring et une maintenance proactive dans ses souscriptions à HDP.
De son côté, IBM a opté pour une stratégie portée sur l’analytique avec BigInsight for Apache Hadoop. Big Blue propose plusieurs modules avec son offre Entreprise, comme des modules séparés pour les analystes ou les data scientists. Le premier fournit BigSQL pour des accès SQL fédérés à Hadoop et d’autres sources de données. BigSheets permet d’explorer, de transformer et de créer des visualisations à partir de grands jeux de données stockés dans Hadoop, via une interface de type tableur. BigInsight Data Scientist Module comprend une version de R, des bibliothèques d’analyse de texte et de Machine Learning (SysemML, versée dans l’Open Source). Il propose aussi des outils pour gérer et contrôler des clusters.
Amazon EMR collecte des données utilisées pour contrôler et suivre la santé d’un cluster. Ces métriques sont accessibles via une interface en ligne de commande, un SDK ou des APIs. Elles sont aussi accessibles dans la console de gestion d’EMR. A cela s’ajoute le service de monitoring CloudWatch.
Ce qu’il faut retenir : Il est vrai que sélectionner un fournisseur qui propose des composants supplémentaires dans ses offres Entreprise peut s’apparenter à s’engager sur le long terme, - particulièrement si ces composants sont intégrés étroitement avec la distribution standard. Si le verrou-vendeur est un souci, préférez des fournisseurs membres de l’ODPi.
3 – Sécurité et protection des données
Malgré la montée en puissance des logiciels Open Source dans les entreprises, il reste encore quelques craintes sécuritaires quant à leur usage en production. Plusieurs fournisseurs Hadoop tentent de résoudre ce problème.
Par exemple, Hortonworks s’est associé avec fournisseurs et clients pour lancer la Data Governance Initiative for Hadoop, avec un premier projet Atlas, pour gérer la classification des données, l’audit, la gestion des politiques de sécurité et de protection des données. Il travaille également à intégrer Atlas à Ranger, un outil de sécurité Open Source qui met en place des politiques d’accès. Cloudera, quant à lui, propose des outils permettant aux utilisateurs de gérer la sécurité des données et leur gouvernance à partir de la plateforme CDH.
Hortonworks, Cloudera, MapR et IBM ont épinglé chiffrement des données à leur offre. Les deux premiers supportent également le chiffrement des données au repos. MapR fournit le chiffrement des données en mouvement, depuis et vers un cluster. IBM dispose à son catalogue d’ InfoSphere Guardium, qui fournit chiffrement et masking des données confidentielles.
Ce qu’il faut retenir : Les fournisseurs Hadoop proposent différentes approches en matière d’authentification, de contrôle d’accès par rôle, de gestion des politiques de sécurité et de chiffrement de données. Evaluez avec précision vos besoins en sécurité et en protection des données et analyser comment chaque fournisseur cible ces besoins.
4 – Souscriptions et support
La proposition de valeur du modèle Open Source est le packaging et la simplification des déploiements grâce au support et aux services. Une autre alternative consiste à télécharger le code source de chaque composant et d’assembler chaque élément avant l’intégration. Cela demande des compétences et du travail. Les fournisseurs Open Source ont déjà fait le gros du travail, avec des distributions préconfigurées et un stack à jour.
Ce qui différencie les fournisseurs est leur modèle de support. Hortonworks propose plusieurs modèles : à commencer par son édition Jumpstart avec son support via le Web durant les heures ouvrées et une journée en temps de réponse, jusqu’à son édition Enterprise, avec un support 24/7 et des temps de réponse plus courts selon le degré de gravité de l’incident.
Cloudera quant à lui dispose d’une offre avec un support 24/7 et un temps de réponse d’une heure pour les abonnés à son offre Enterprise. Un temps de réponse de 15 minutes est compris pour les souscriptions Flex et Data Hub.
Tous les comptes AWS ont accès à un support de base, qui propose un service client 24/7, un accès au forum de la communauté et à la documentation ainsi qu’à l’application Trust Advisor. Le support Developer comprend un temps de réponse d’une heure pour les incidents les plus graves – entre 12 et 24 heures pour le reste. Le support premium (Business) offre un accès aux ingénieurs par email 24/7 ainsi que des temps de réponse adaptés à la gravité des incidents. Le support Enterprise donne accès à un temps de réponse de moins de 15 minutes (pour les plus graves) ainsi qu’un gestionnaire de compte dédié.
De son côté, MapR offre un service Premium : support via email et Web, portail personnalisé, formation, correctifs, support téléphonique 24/7 en fonction des incidents. Le support Premium+ y ajoute un système de priorisation de tickets et un support unique. IBM quant à lui propose un support pour les entreprises qui achètent des composants sous licence.
Ce qu’il faut retenir : Si les services de support sont la valeur ajoutée des fournisseurs, leur coût doit aussi être en ligne avec les besoins du client. Les offres de souscriptions avec des temps de réponse d’une heure ou de 15 minutes sur une base 24/7 avec une équipe dédiée, coûtera bien plus cher qu’une offre avec des temps de réponse de 24 heures depuis une interface Web.
Traduit et adapté par la rédaction