Cloudera vs AWS EMR : quelle distribution Hadoop choisir pour vos projets Big Data
Les entreprises qui ont besoin d’une plateforme Big Data doivent généralement sonder eux-mêmes le marché pour choisir un fournisseur. La complémentarité des services AWS est indéniable, mais la solution de Cloudera est-elle un meilleur choix ?
Quand il a fusionné avec Hortonworks en janvier 2019, Cloudera a complété son offre Hadoop pour mieux concurrencer les fournisseurs cloud, AWS en premier lieu.
La Cloudera Data Platform (CDP), la solution Big Data issue de la fusion des deux éditeurs, est une offre open source hébergée sur le cloud. Elle est conçue pour défier Amazon Elastic MapReduce (EMR), un autre service cloud basé sur Hadoop. CDP est disponible depuis le début du mois d’octobre depuis AWS. Elle sera accessible depuis Microsoft Azure et Google Cloud platform d’ici à la fin de l’année 2020.
L’influence d’IBM sur l’offre de Cloudera
En juin 2019, Cloudera a entamé un partenariat avec IBM afin de proposer des solutions Big Data et IA, revendues par l’un et l’autre. Elles se nomment Cloudera Enterprise Data Hub, Data Flow, IBM Watson Studio et Big SQL.
Dans cet article, nous cherchons à savoir ce que ce partenariat entre Cloudera et IBM pourrait signifier pour les utilisateurs de workloads Big Data. Comment cela modifie-t-il le rapport de force entre Cloudera et Amazon EMR ?
Selon Dave Mariani, fondateur et CSO d’AtScale, un spécialiste de la virtualisation de data warehouse, ce partenariat est une reconduction de l’accord entre Big Blue et Hortonworks réalisé avant la fusion.
Auparavant, Cloudera et Hortonworks se concentraient sur la distribution du système basé sur HDFS et d’outils pour gérer d’importants lacs de données. Grâce à ces capacités, les entreprises pouvaient sauvegarder toutes leurs données à un seul endroit et les réutiliser à diverses fins analytiques. En pratique, ces sociétés ont souffert de problèmes de performance liés au déploiement d’Hadoop sur site. En conséquence, elles ont choisi de se tourner vers les fournisseurs cloud pour structurer leur gestion de données.
Après la fusion, l’association entre IBM et Cloudera pourrait aider les clients à résoudre les problèmes de performances grâce aux services complets de support et d’assistance fournis par IBM. De son côté, AWS offre un ensemble d’outils pour automatiser de nombreux aspects de déploiements Big Data. Amazon EMR constitue un choix intéressant pour les entreprises dotées de compétences liées aux technologies d’AWS.
Cloudera vs Amazon EMR
Ainsi, la plateforme CDP semble attrayante pour des acteurs qui posent les premières pierres d’une stratégie Big Data. Ces derniers doivent souvent coordonner leurs données et applications réparties sur site et dans le cloud. En revanche, ce partenariat ne risque pas de changer la donne pour les entreprises ayant déjà adopté les services AWS.
Tout comme IBM, Cloudera soutient une approche hybride et multicloud. CDP devrait être la mieux adaptée pour les entreprises prêtes à adopter cette stratégie, selon Dave Mariani. Il considère que cela empêche l’enfermement auprès d’un seul éditeur.
L’approche d’IBM en matière de développement d’applications consiste à utiliser Kubernetes et des containers pour que les charges de travail puissent être exécutées n’importe où : sur site, dans le cloud privé ou dans le cloud public. AWS, quant à lui, exécute les workloads liés à ces services depuis son infrastructure uniquement.
Bien que le multicloud semble une approche viable, Dave Mariani ne s’attend pas à ce que beaucoup d’entreprises empruntent cette route prochainement. Il a discuté avec plusieurs utilisateurs du cloud. Ceux-ci ont choisi un seul fournisseur et ont possiblement adopté les services d’un autre acteur pour la partie backup. Selon lui, le principal avantage pour les clients d’un fournisseur unique repose sur la complémentarité des services et des outils permettant à l’IT de ne plus s’occuper de l’intégration système.
Par exemple, Amazon EMR repose sur le stockage objet S3 connecté au data catalog AWS Glue et à la base de données Redshift. Les points forts d’AWS proviennent de l’intégration des APIs, de la disponibilité et du déploiement dans les différentes régions géographiques, ainsi que l’interopérabilité de l’ensemble de sa gamme de services. Ces connexions « natives » désavantagent les solutions tierces telles que CDP par rapport à EMR. Surtout si les acheteurs de plateformes Big Data sont entraînés et certifiés par la filiale d’Amazon.
En revanche, Cloudera l’emporte sur AWS quand les entreprises cherchent des services, un support, une implémentation et une conformité haut de gamme pour leur plateforme de données, selon Marty Puranik, président d’Atlantic.net, un fournisseur d’hébergement.
La sécurité, la gouvernance et les métadonnées de Cloudera Data Platform sont normalement intégrées dans la couche d’échange entre les sources de données et les workloads analytiques. Pour automatiser ce processus, Cloudera a mis au point un catalogue de données partagées nommé SDX. Afin de maintenir un haut niveau de sécurité dans Amazon EMR, les développeurs doivent gérer eux-mêmes le chiffrement entre les différentes applications.
Cependant, CDP n’est pas nativement compatible avec les notebooks basés sur Jupyter. Ceux-ci fonctionnent avec l’ensemble des produits AWS tels que S3, DynamoDB et Redshift. Déployer CDP implique plus de travail pour se connecter à ces environnements Jupyter. Ils sont utiles pour la visualisation, le nettoyage, la création de modèles de données. Les documents à partager peuvent contenir du code, des équations, des éléments visuels et du texte.
Déploiement et coût
Les différences de coût entre Cloudera et AWS se mesurent en termes de déploiement, de conformité aux réglementations, de sécurité et de performances. AWS s’adresse aux entreprises ayant une expertise interne et des centres d’excellence en matière de cloud computing, tandis que Cloudera et IBM offrent davantage de conseils par le biais de services professionnels.
« Le prix d’Amazon EMR affiché sur l’étiquette est plus bas, mais peut largement grimper si vous ne maîtrisez pas les outils », affirme Marty Puranik.
Par exemple, les entreprises peuvent payer des frais supplémentaires importants s’ils envoient plus de données dans le cloud que n’en nécessite un traitement analytique. Un autre gros problème peut venir d’une mauvaise configuration, comme le fait de laisser les buckets S3 ouverts. Capital One en a subi les frais : l’erreur a potentiellement touché 100 millions de clients.
Si les utilisateurs n’ont pas souscrit aux offres d’un fournisseur cloud ou s’ils ne sont pas sûrs de l’infrastructure dont ils ont besoin, ils devraient étudier l’offre de Cloudera et d’IBM avec attention, même si le coût de la solution est plus élevé que celui d’Amazon EMR. Pour bien faire son choix, rien de mieux que de lancer les workloads d’essais sur une machine virtuelle.
« Commencez par de plus petits projets, si possible, et déterminez celui qui convient le mieux à votre organisation », assure Marty Puranik.