echiechi - Fotolia

Conseil

Les principales distributions Hadoop sur le marché

Voici les principales distributions Hadoop sur le marché et un ensemble d'éléments pour choisir celle qui convient le mieux aux pratiques analytiques en entreprise.

par

Linda Rosencrance

Publié le: 06 nov. 2019

Pour répondre aux besoins des entreprises qui déploient Hadoop, les éditeurs et les fournisseurs cloud ont lancé des distributions commerciales et des technologies open source associées. Voici les solutions les plus répandues avant mai 2019.

Alibaba Cloud E-MapReduce

Alibaba Cloud Elastic MapReduce, aussi connue sous le nom E-MapReduce ou EMR, est une distribution Hadoop hébergée spécialisée dans le traitement massif et l’analyse de données. Construit sur les instances Alibaba Cloud Elastic Service, EMR est basée sur Hadoop et Apache Spark.

La solution permet aux entreprises de gérer leurs données dans un large éventail de scénarios comme l’analyse des tendances, le data warehousing et le traitement des données en ligne et hors ligne. Pour cela, EMR permet d’utiliser les composants Apache Hive, Kafka, Flink, Druid et TensorFlow.

Cette solution est censée simplifier l’import et l’export de données en provenance d’autres systèmes de stockage cloud ou de SGBD, à l’aide d’Alibaba Cloud Object Storage Service et Distributed Relational Database Service.

La plupart des retours clients sur Gartner Peer Insights semblent aimer le produit pour sa facilité de déploiement. Il leur permet aussi « d’ingérer, de structurer et d’analyser les informations », selon le site d’Alibaba, tout comme de gérer les clusters. Cependant, un des utilisateurs considère la plateforme comme trop compliquée et non fonctionnelle.

Les fonctionnalités d’Alibaba Cloud EMR sont les suivantes :

Déploiement et expansion automatisés des clusters : les clients peuvent déployer et étendre les clusters depuis une interface web sans avoir besoin de gérer les équipements et le logiciel. Ceux-ci peuvent être liés à Hadoop, Kafka, Druid et Zookeeper. Les clients peuvent également ajouter, configurer et maintenir des composants en fonction des besoins de l'entreprise, et ajouter tout type de nœuds aux clusters existants.
Planification des workflows : cette fonctionnalité facilite l’orchestration et la planification des tâches. Elle prend en charge la gestion graphique de ces dernières ainsi que leurs dépendances pour permettre aux entreprises de les exécuter et de les orchestrer. Ces flux sont produits sous forme de graphes orientés acycliques (DAG).
Composants multiples : EMR comprend Hadoop, Spark, Hive, Kafka et Storm
Support complet de l’écosystème Alibaba : l'outil prend en charge la lecture et l'écriture des données provenant des services de messagerie Alibaba Cloud, y compris les services Message Queue et Message Service, et supporte l'intégration SDK.
Intégration des données : Elastic MapReduce s’intègre à des outils open source, hors ligne, en temps réel et avec ceux d’Alibaba.

Amazon EMR

Amazon EMR est un outil dédié au traitement big data et à l’analytique. Il offre un service extensible. AWS le présente comme une alternative aux clusters déployés en interne.

Les clusters Amazon EMR ont vu le jour en même temps que les frameworks Hadoop ou Spark. Ils sont habituellement couplés avec des utilitaires open source comme Hive ou Apache Pig.

Une fois combinés, ces frameworks peuvent traiter, analyser et transformer de vastes quantités de données. Ils interagissent également avec des bases de données ou des espaces de stockage objets comme DynamoDB ou S3 (Simple Storage Service). L’intégration avec les outils d’AWS permet, en principe, aux équipes de tirer des indicateurs des données analysées.

Sur le papier, les entreprises peuvent instantanément provisionner les capacités de calcul et de stockage nécessaires pour effectuer des tâches comme de l’indexation Web, l’analyse de logs, de l’apprentissage machine, du data mining, de l’analyse financière, de la recherche scientifique ou de la recherche bioinformatique. Par ailleurs, le service dispose d’une option pour faire évoluer automatiquement ou manuellement les capacités à la volée, suivant les besoins.

Enfin, EMR Notebooks fournit un environnement managé basé sur l’application Jupyter qui permet aux analystes, aux développeurs et aux data scientists de préparer, visualiser les données, bâtir des applications, collaborer entre eux et effectuer des analyses interactives en utilisant les clusters EMR.

Toutefois certains utilisateurs ont déclaré sur TrustRadius que si les fonctionnalités de machine learning d’EMR basées sur Hadoop et Spark sont de bonnes factures, elles ne sont pas aussi faciles à utiliser que celles de certains concurrents.

Azure HDInsight

Microsoft Azure HDInsight est lui aussi un service managé dans le cloud. Il repose sur des composants proposés dans la distribution Hortonworks Data Platform (HDP). HDInsight est vendu comme un moyen de déployer Hadoop et les autres solutions d’analyse de données Apache de manière plus économique.

Les clients peuvent utiliser les frameworks open source les plus populaires comme Hadoop, Spark, Hive, LLAP, Kafka, Storm, MapReduce et d’autres. Les scénarios envisageables sont nombreux : ETL, Data Warehousing, machine learning et internet des objets. Par ailleurs, Microsoft y adjoint ses propres services comme SQL Data Warehouse, Azure CosmosDB, Data Lake Storage, Blob Storage, Event Hubs et Data Factory. Le but est de fournir une panoplie d’outils afin de construire des pipelines analytiques.

Azure HDInsight se connecte également à Azure Log Analytics, ce qui permet en principe de suivre les clusters depuis une seule interface. Le service est compatible avec un ensemble d’environnements de développement dont Visual Studio, Eclipse, IntelliJ, Jupyter et Zeppelin. Les développeurs peuvent utiliser des langages de programmation courants tels que Scala, Python, R, Javascript et .NET.

Tout comme le service d’AWS, il réclame des connaissances approfondies pour le maîtriser. « En général, cela demande tellement de temps pour apprendre aux clients à l'utiliser qu'il est plus facile de simplement le contrôler pour eux », déclare un utilisateur sur le site de notation Web G2.

Cloudera CDH

Cloudera Distribution Hadoop plus communément nommé CDH était le produit phare de Cloudera avant la fusion avec Hortonworks. Il inclut encore une fois Hadoop, Spark, Kafka et plus d’une douzaine de projets open source, tous étroitement intégrés au sein de la solution. CDH, offre les fonctionnalités clé d’Hadoop, c’est-à-dire un stockage évolutif, du calcul distribué, ainsi qu’une interface Web. La plateforme open source sous licence Apache comprend une solution de traitement unifié par lots, des outils de recherche dont l’un basé sur des requêtes SQL, tout comme un système de contrôle d’accès par rôle.

Cette plateforme permet de stocker, de traiter, de découvrir et de réaliser des modèles associés à un grand volume de données. Elle dispose des fonctionnalités suivantes :

Stockage des données structurées et non structurées
Plusieurs types d’analyses des données partagées dont le machine learning, les traitements par batch ou en streaming et les fonctions analytiques SQL.
Une seule plateforme disponible dans des environnements hybrides et multicloud.

Le framework Impala disponible depuis CDH permet d’effectuer des requêtes SQL directement sur les données stockées dans HDFS, Apache Hbase ou S3. Impala s’appuie sur de nombreuses technologies Hive dont le langage de requête HiveQL, les connecteurs ODBC (Open Data Base Connectevity) et Query UI.

Partie intégrante de CDH et disponible depuis Cloudera Enterprise, Impala est un moteur de traitement massivement parallèle (MPP) open source et analytique d’Hadoop.

Les retours concernant CDH sont bons sur le site Web G2. Les clients affirment qu’elle est facile à utiliser et remplit son rôle pour maintenir et stocker les données dans le cloud. Précisons que le support de la plateforme sera maintenu jusqu’en 2022 par Cloudera.

Google Cloud Dataproc

Google Cloud Dataproc est un service cloud managé pour lancer des clusters Spark et Hadoop. Le fournisseur assure que ce dernier accélère les traitements. Ceux qui duraient plusieurs heures prennent normalement quelques minutes.

DataProc est connecté avec d’autres services GCP (Google Cloud Platform), ce qui permet de disposer, selon le géant du cloud, d’une plateforme complète pour le traitement des données, l’analytique et le machine learning.

Cloud Dataproc propose les fonctionnalités suivantes :

Gestion automatisée des clusters : cela permet la gestion des déploiements, le monitoring et le logging.
Clusters redimensionnables : les clients peuvent choisir comment créer et gérer la taille de leurs clusters avec des options concernant le type de machines virtuelles, l’espace de stockage, le nombre de nœuds et la bande passante attribuée.
Intégration : Cloud DataProc est nativement intégrée avec cloud storage, BigQuery, Bigtable, Stackdriver Logging et Stackdriver Monitoring
Gestion des versions : un utilisateur peut permuter entre plusieurs versions d’images d’Hadoop, de Spark et autres.
Haute disponibilité : les équipes exécutent des clusters avec plusieurs nœuds principaux et paramètrent les tâches pour qu'elles redémarrent en cas d'échec.
Outils pour les développeurs : le service propose plusieurs outils pour gérer un cluster. Web UI, le SDK Google Cloud, des APIs RESTful et des accès SSH.
Actions d’initialisation : permet d’installer ou de personnaliser les paramètres et les bibliothèques nécessaires au fonctionnement des clusters.
Configuration manuelle ou automatique : gère le matériel et les logiciels suivant les besoins de l’entreprise.

Les avis disponibles sur le site web G2 sont globalement bons bien que certains utilisateurs pointent quelques problèmes d’interface.

Hortonworks Data Platform

Après la fusion d’Hortonworks et de Cloudera en janvier 2019, l’éditeur a lancé sa plateforme unifiée Cloudera Data Platform. Pourtant, Cloudera maintient le support de CDH et de HDP jusqu’en janvier 2022.

La Hortonworks Data Platform dispose peu ou prou des mêmes fonctionnalités que CDH en se basant uniquement sur des composants sous licence Apache. Cette distribution repose sur le système de stockage HDFS et Hadoop YARN.

YARN, un élément essentiel du projet Hadoop, est un gestionnaire centralisé pour la planification et la gestion de ressources du système. Il surveille également les opérations de traitement effectuées sur chaque nœud d’un cluster. Surtout, il permet de prendre en charge un plus grand nombre de traitements analytiques différents.

La version 3.1.0 de HDP ajoute de nouvelles fonctionnalités censées faciliter le travail des analystes. Le déploiement des applications est plus agile. La plateforme supporte davantage de workloads de machine learning et de deep learning ; elle permet de faire du data warehousing en temps réel et doit améliorer la sécurité et la gouvernance. L’éditeur assure qu’elle donne la possibilité d’exploiter leurs données plus rapidement dans des environnements hybrides.

L’architecture modernisée permet de stocker les données dans le cloud dans leur format d’origine sur Azure Data Lake Storage, Azure Blob, Amazon S3 et Google Cloud Storage. Elle prend également en charge les données en transit et au repos sur site et dans le cloud.

Sur Gartner Peer Insight, les clients déclarent que le produit rencontre de nombreux petits bugs que l’équipe de développement doit encore réparer. D’autres affirment que les clusters HDP sont difficiles à mettre en place dans de grands groupes.

MapR

MapR est une distribution d’Hadoop conçue pour les entreprises. Cette plateforme permet le stockage et le traitement d’importants volumes de données à l’aide de technologies open source sous licence Apache et quelques outils maisons. Selon l’éditeur racheté par HPE, ces composants propriétaires permettent une meilleure gestion tout en améliorant la résilience et la qualité des données présentes dans les clusters Hadoop.

MapR mise sur MapR XD Distributed File and Object Store, un système de fichier distribué, auparavant nommé MapR-FS, qui remplace HDFS. MapR Database prend la place de la base de données Hbase et MapR Control System constitue l’interface utilisateur de la plateforme.

Elle est compatible avec toutes les APIs et les outils de traitement de données de l’écosystème Hadoop. Les clients peuvent facilement migrer les datas vers d’autres distributions et vice-versa.

MapR Snapshots est conçu pour améliorer la protection des données. L’utilisateur sauvegarde des instantanés des fichiers et des tables à la demande ou à intervalles réguliers. Par ailleurs, l’éditeur fournit des services prêts à l’emploi de continuité d’activité et de reprise après sinistre.

La distribution comporte enfin un environnement de test hébergé sur une machine virtuelle qui inclut des tutoriels et des démonstrations d’applications pour les débutants.

Les retours clients disponibles depuis Gartner Peer Insight décrivent un produit efficace. Cependant, certains utilisateurs pointent du doigt les tarifs pratiqués et un support trop peu soutenu de Spark.

Qubole

Qubole Data Service (QDS) offre un déploiement automatisé et optimisé d’Apache Hadoop.

QDS est une plateforme cloud native vendue par son éditeur comme une solution complète pour l’analytique en profondeur, l’intelligence artificielle et le machine learning à partir d’une architecture Big Data. Elle dispose d’outils de recherche SQL, de notebooks et des tableaux de bord basés sur des moteurs open source.

L’infrastructure partagée permet de gérer depuis un seul espace de travail les flux ETL, les workloads analytiques, d’IA et de machine learning à l’aide d’outils comme Spark, Presto, TensorFlow, Hadoop ou encore Hive.

Qubole se veut agnostique et propose à ses clients d’accéder, de configurer et de gérer leurs clusters Big Data depuis n’importe quel cloud et leur permet d'accéder en libre-service aux données à l'aide de l'interface de leur choix.

Ils peuvent requêter les données depuis une console Web dans le langage de programmation de leur choix, créer des applications intégrées à l’aide de l’API REST, d’utiliser le SDK pour ce faire, et se connecter à des outils métiers via ODBC ou JDBC.

Selon les témoignages clients « Qubole simplifie la gestion des clusters et des jobs Spark qu’ils soient planifiés ou non ».

« C'est un choix judicieux si vous voulez les outils de données les plus populaires et que vous ne voulez pas passer du temps à les maintenir vous-même », écrit un utilisateur sur le site Web G2.

Note de l'éditeur : Grâce à des recherches approfondies concernant le marché Hadoop, les rédacteurs de TechTarget se sont concentrés sur les éditeurs qui dominent le marché, en plus de ceux qui offrent les fonctionnalités traditionnelles et avancées. Notre recherche repose sur des données provenant de sondages TechTarget, ainsi que des rapports de cabinets de conseil, dont Gartner et Forrester.

Les principales distributions Hadoop sur le marché

Voici les principales distributions Hadoop sur le marché et un ensemble d'éléments pour choisir celle qui convient le mieux aux pratiques analytiques en entreprise.

Alibaba Cloud E-MapReduce

Amazon EMR

Azure HDInsight

Cloudera CDH

Google Cloud Dataproc

Hortonworks Data Platform

MapR

Qubole

Pour approfondir sur Outils décisionnels et analytiques

Mort d’Hadoop : le marché se trompe selon le TOSIT

BedRock Streaming bascule ses traitements Big Data sur AWS Graviton2

ReInvent 2021 : AWS s’aligne sur la tendance serverless

Data Processing : OVHcloud vante les qualités de son Spark à la demande