Quels cas d’usage pour un cluster Hadoop dans votre entreprise

Pour vous aider à comprendre le potentiel d’Hadoop dans votre entreprise, le consultant David Loshin passe en revue différents cas d’usage que peut supporter le framework.

Publié le: 20 mai 2016

Nombre d’entreprises bataillent aujourd’hui pour gérer la vaste quantité de données qu’elles collectent. Dans le passé, elles pouvaient certes utiliser des entrepôts de données, mais ces architectures conventionnelles peuvent être toutefois précaires, lorsqu’il s’agit de gérer des données en provenance de nombreuses sources externes – d’autant que la structure de ces données et le type de contenu peut varier. Mais de nouvelles technologies ont émergé, à l’image d’Hadoop, ce framework Open Source distribué.

Hadoop est en fait une série de composants Open Source et d’outils associés pour capturer, traiter et analyser des données. Mais, comme évoqué dans un précédent article, des fournisseurs se sont mis à commercialiser des distributions du framework pour en faciliter l’accès aux entreprises. Et justement : comment les entreprises peuvent-elles intégrer Hadoop à leur SI ?

Identifier un cas d’usage pour une distribution Hadoop

Hadoop fonctionne sur des clusters composés de serveurs de commodité et est généralement utilisé pour supporter des applications d’analyse de données, et pas des applications transactionnelles. Plusieurs cas d’usage se prêtent bien à ce modèle de traitement distribué :

L’intelligence opérationnelle. Ces applications capturent des flux de données des systèmes de traitements transactionnels, contrôlent les niveaux de performance et utilisent l’analyse prédictive pour la maintenance.
Le Web analytique, dont la vocation est d’aider les entreprises à comprendre les comportements en ligne des internautes, examiner les logs des serveurs Web pour détecter des problèmes de performances et identifier des possibilités d’amélioration des campagnes de marketing en ligne.
Gestion de la sécurité et des risques. Cela consiste à exécuter des modèles analytiques qui comparent les données transactionnelles à une base de connaissance. Celle-ci renferme des scénarri types de fraudes par exemple. Avec ce cas d’usage, les entreprises peuvent aussi analyser en continu la sécurité et détecter des comportements suspicieux.
Optimisation marketing. Cela comprend les moteurs de recommandations qui absorbent de grande quantité de données de navigation et de ventes en ligne et croise ces informations avec des profils clients pour proposer en temps réel des suggestions de produits.
Des applications de l’Internet des objets (IoT). Cela porte sur l’analyse de données générées par les objets via des capteurs qui créent en continu et diffusent des données sur leur état et leurs performances.
L’analyse de sentiments et protection de la marque. L’entreprise peut par exemple capturer les flux des media sociaux et analyser les textes pour identifier les clients mécontents et régler rapidement les problèmes.
Ingestion massive de données. Pour par exemple des scenarri types d’intégration en volume
Data Staging. Hadoop est ici utilisé comme plateforme première pour les données qui seront ensuite nettoyées, classées et transformées en des formats plus structurés pour les charger enfin dans des entrepôts de données ou des bases analytiques.

Le champ fonctionnel pour supporter ces cas d’usage

Les solutions technologiques capables de supporter des cas d’usage peuvent bien être développées au dessus d’Hadoop, en s’adossant par exemple à certaines implémentations connues :

Le data lake. Parce que Hadoop offre une scalabilité linéaire, lorsque de nouveaux noeuds sont ajoutés au cluster, il constitue une plateforme logique pour capturer et gérer des fichiers volumineux et bruts. Cela a d’ailleurs poussé de nombreux utilisateurs à implémenter des environnements Hadoop pour donner naissance à des systèmes fourre-tout dans lequel sont stockées toutes les données. C’est le concept de lac de données (data lake).
Augmentation de l’entrepôt de données. Les possibilités de stockage distribué d’Hadoop peuvent aussi être exploitées pour étendre les données utilisées dans des analyses, en provenance des entrepôts de données. Prenons l’exemple d’un mécanisme de stockage de données axé sur leur température où les données sont allouées à différents niveaux de stockage en fonction de leur fréquence d’usage. Les données le plus fréquemment utilisées (hot) sont gardées dans l’entrepôt de données tandis que les plus froides sont placées dans des systèmes de stockage à plus forte latence comme HDFS. Cette mécanique dépend d’une intégration très étroite entre l’entrepôt de données et Hadoop.
Moteur de traitement batch à grande échelle. Hadoop peut également se transformer en une plateforme de traitement massivement parallèle qui convient aux applications dont les données sont traitées en mode batch. Cela convient par exemple aux opérations de standardisation et transformation des données réalisées en amont des analyses. Les applications reposant sur des algorithmes, comme le data mining, le machine learning, l’analyse de patterns ou le prédictif sont aussi de bons usages des possibilités batch d’Hadoop. Ces traitements peuvent être réalisés en parallèle sur des fichiers volumineux et distribué avec des traitements itératifs qui s’enregistrent jusqu’à la finalisation du programme.
Moteur de traitement d’événements en temps réel. Un environnement peut aussi être configuré pour traiter des flux entrants de données en temps réel (ou presque). L’analyse de sentiments peut comprendre plusieurs agents fonctionnant en parallèle sur un cluster Hadoop, chacun appliquant des règles de traitements à des flux de données provenant de média sociaux.

Mettre en place Hadoop : cela peut-il vous convenir ?

Un framework peu couteux et hautement performance comme Hadoop peut cibler plusieurs usages, tant IT que métier et accroître les capacités de traitement et de gestion des données d’une entreprise. Passons en revue certaines caractéristiques :

Ingestion et traitement de grands jeux de données, en volume et de flux de données. Parmi les exemples, on retrouve la collecte des logs serveurs qui renferment des informations sur des milliards d’événements en ligne, indexe des centaines de millions de documents répartis sur différents jeux de données, ou encore l’intégration de flux de données en continu issus des média sociaux, des données financières, des flux d’informations ou du contenu publié par des communautés d’experts.
Le besoin d’éliminer des obstacles qui freinent les performances. Les performances d’une application tournant sur un entrepôt de données sont souvent limitées, à cause d’accessibilité des données, de la latence, de la disponibilité et des limites de bande passante dues à la quantité de données devant être traitées.
La volonté de pouvoir disposer de capacité de scalabilité linéaire. Au fur et à mesure que le volume des données et le nombre d’utilisateurs augmentent, avoir à disposition un environnement qui scale lorsqu’on ajoute des ressources de stockage ou de compute est critique.
Mixer données structurées et non structurées. Les applications doivent pouvoir utiliser des données issues de sources différentes et dont la structure peut varier.
Economies. Au lieu de payer des prix élevés pour des serveurs haut de gamme ou des appliances, l’équipe IT peut s’appuyer sur des composants de commodité pour des performances acceptables.

Une approche positive d’intégration d’Hadoop doit être nuancé, avec la notion de faisabilité. Parce que nombre d’entreprises ont réalisé des investissements significatifs dans des entrepôts de données traditionnels, il existe logiquement une résistance à l’arrivée de nouvelles technologies. Avant de contacter un fournisseur Hadoop, travaillez à lever les éventuelles barrières à l’adoption et évaluez les besoins en matière de taille du cluster et configuration.

Essayez par exemple de savoir comment un cluster Hadoop peut s’insérer dans la stratégie analytique de votre entreprise – s’il doit par exemple servir à compléter l’entrepôt de données ou le remplacer. Essayez aussi d’identifier les problèmes d’intégration et d’interopérabiité et de considérer les alternatives. De plus, assurez vous d’avoir le budget adéquat pour recruter les bons profils pour former des employés en place.

Traduit et adapté par la rédaction

Quels cas d’usage pour un cluster Hadoop dans votre entreprise

Pour vous aider à comprendre le potentiel d’Hadoop dans votre entreprise, le consultant David Loshin passe en revue différents cas d’usage que peut supporter le framework.

Identifier un cas d’usage pour une distribution Hadoop

Le champ fonctionnel pour supporter ces cas d’usage

Mettre en place Hadoop : cela peut-il vous convenir ?

Pour approfondir sur Big Data et Data lake

Cloudera ouvre les voies du multicloud à ses clients

Comment le cloud redonne vie aux entrepôts de données

L’essentiel sur Amazon Elastic MapReduce

Ce qu’il faut savoir pour évaluer des distributions Hadoop