agsandrew - Fotolia

L’essentiel sur Cloudera CDH

La distribution Hadoop de Cloudera embarque plusieurs composants Open Source. Elle est déclinée en plusieurs éditions, chacune intégrant des outils d’administration et de déploiement différents.

Cloudera est l’un des pure-players historiques d’Hadoop, aux côtés d’Hortonworks et de MapR. Le groupe, soutenu par Intel, développe CDH une distribution d’Hadoop qui comprend plusieurs autres projets Open Source, tels qu’Impala et Search. Il propose également des fonctions de sécurité et d’intégration.

Le framework Impala est en fait un moteur de requêtes interactif SQL qui permet d’interroger directement les données stockées dans HDFS, Apache HBase ou encore AWS S3. Ce moteur s’appuie quant à lui sur d’autres technologies et composants issus de Hive, comme sa syntaxe SQL (HiveSQL), le driver Open Data Base Connectivity et Query UI.

Le composant Search repose quant à lui sur le projet Apache Solr, un moteur d’indexation et de recherche de données bâti sur Lucene. L’intégration de cette technologie dans CHD donne accès par exemple à des capacités d’indexation en (presque)temps réel et d’accès aux données stockées dans un cluster Hadoop ou HBase. La technologie Solr permet d’effectuer des recherches complexes full-text, sans compétences SQL étendues. Solr permet d’interroger les données Hadoop, mais sans avoir à les déplacer au préalable.

Flume, HBase, Hive, Hue, Oozie, Spark, Sqoop et Sentry font également parti des autres projets inclus dans CDH.

CDH : les offres

Cloudera propose plusieurs éditions de CDH, chacune proposant des fonctions de gestion de services et de cluster, avec des niveaux de support différents :

  • Cloudera Express est la déclinaison gratuite de CDH. Elle comprend donc évidemment les éléments de CDH ainsi que les fonctions cœur de Cloudera Manager. Elle donne accès à une version d’évaluation 30 jours à la version Enterprise.
  • Cloudera Manager constitue la tour de contrôle de CDH. L’outil apporte une console d’administration Web pour déployer, gérer, monitorer et contrôler l’état de santé de déploiements de CDH. Il comprend également une API pour configurer le système et récupérer des métriques et des informations sur le fonctionnement d’un cluster CDH.
  • Cloudera Enterprise est une déclinaison sous licence payante, et donc avec des fonctions étendues. Elle comprend par exemple des outils avancés extraits de Cloudera Manager et Navigator.  Il existe 3 éditions de Cloudera Enterprise :
    • L’édition Basic fournit des outils d’administration pour gérer un cluster sur lequel s’exécutent les éléments cœur de CDH, comme HDFS, Hive, Hue, MapReduce, Oosie, Sqoop, YARN et ZooKeeper.
    • L’édition Flex supporte la gestion d’un cluster de composants cœur de CDH avec, en plus, Accumulo, Impala, Navigator, Solr ou Spark (au choix).
    • L’édition Data Hub quant à elle compile l’ensemble des outils cités ci-dessus.
  • Cloudera Manager Advanced Features permet d’ajouter des fonctions clé à Cloudera Express : le reporting opérationnel, gestion de quota, journal de configurations, mises à jour en continu, re-démarrage de services,  intégration de Kerberos, intégration à LDAP, support de SNMP et récupération après sinistre automatique.
  • Cloudera Navigator, qui est fourni uniquement avec les éditions Flex et Data Hub, permet de gérer la sécurité des données ainsi que leur gouvernance, au sein d’une plateforme CDH. L’outil supporte ainsi les contraintes des entreprises en matière de conformité. Avec lui,  Les data managers, les analystes ou encore les admin ont la possibilité d’explorer de gros volume de données stockées dans Hadoop et de gérer plus facilement les clés de chiffrement utilisées pour sécuriser les données d’un cluster CDH.

Les solutions de Cloudera supportent RHEL/CentOS 6.6, 6.7, et 7.1 et Oracle Enterprise Linux 7.

Plusieurs options de déploiement sont proposées par Cloudera ; dont  QuickStartVM. Il s’agit en fait d’une VM – VMware, VirtualBox – avec CentOS 6.4 et un unique cluster Hadoop ainsi que des exemples de requêtes et de scripts, puis Cloudera Manager pour gérer ce même cluster. Ces VM ne peuvent être utilisées qu’à des fins de tests et de démonstration.

CDH : licence, prix et support

La tarification des souscriptions annuelles est calculée en fonction de l’édition choisie, du nombre de nœuds ou de la gamme. Les équipes de Cloudera peuvent être contactées pour détailler les prix.

Cloudera propose plusieurs options de support aux utilisateurs de l’édition Enterprise. Pas de support en revanche pour l’édition Express. Les détenteurs de licences Enterprise bénéficient d’options de support pendant  les heures ouvrées ou 24/7. Le support Premium, qui inclut par exemple un temps de réponse de 15 minutes pour les incidents critiques, est seulement proposé aux détenteurs de licences Flex ou Data Hub.

Cloudera propose également des offres de formations et de certifications via Cloudera University. Les formations sont délivrées pour les développeurs,  les administrateurs et les analystes.

Pour approfondir sur Big Data et Data lake

Close