Cet article fait partie de notre guide: Guide : tout savoir sur Hadoop

Quand utiliser Hadoop... et quand s'en passer ?

Hadoop est devenu la coqueluche du Big Data. Mais ses capacités ne sont pas illimitées : les entreprises avisées doivent s'assurer qu'il répond bien à leurs besoins.

Ces dernières années, Hadoop a acquis une grande notoriété, il est considéré comme LE moteur d'analytique du Big Data par excellence. Pour beaucoup, son nom est même synonyme de gestion des Big Data. Mais cette infrastructure de traitement distribué open source ne constitue pas la panacée : les entreprises qui envisagent de la déployer doivent soigneusement évaluer quand utiliser le framwork et quand faire appel à une autre technologie.

Certes, Hadoop affiche une puissance largement suffisante pour traiter de gros volumes de données non structurées ou semi-structurées. Mais il ne brille pas par sa vitesse de traitement lorsque les ensembles de données sont plus petits. Ce facteur limite son application chez Metamarkets Group Inc., fournisseur de services d'analyses marketing en temps réel basé à San Francisco, qui cible les annonceurs en ligne.

Hadoop

D'après Michael Driscoll, PDG de Metamarkets, la société utilise Hadoop dans les projets de traitement de gros volumes de données distribuées lorsqu'ils ne sont pas soumis à une contrainte de temps. Cela va de l'exécution en fin de journée de rapports d'analyse portant sur les transactions quotidiennes à l'examen de données historiques remontant à plusieurs mois.

Mais lorsqu'il s'agit d'exécuter les processus d'analyse en temps réel qui constituent le coeur de l'offre de Metamarkets, Hadoop n'est pas mis à contribution.

En effet, selon Michael Driscoll, la plateforme serait optimisée pour des traitements par lots qui examinent chaque fichier d'une base de données. Un compromis s'impose alors : pour établir des connexions en profondeur entre les points de données, la technologie sacrifie la vitesse. « Utiliser Hadoop s'apparente à écrire à un correspondant, dit-il. Vous écrivez une lettre, vous l'envoyez, puis vous recevez une réponse. Mais c'est très différent de la [messagerie instantanée] ou de l'e-mail ».

En raison de ce délai, Hadoop ne présente jusqu'à présent qu'un intérêt limité dans les environnements en ligne pour lesquels des performances rapides sont cruciales, indique Kelly Stirman, directeur du marketing produit chez 10gen Inc., société éditrice de la base de données NoSQL MongoDB. Ainsi, les applications en ligne qui se nourrissent de l'analytique, telles que les moteurs de recommandation de produits, reposent sur le traitement rapide de petites quantités d'informations. Mais, selon Kelly Stirman, Hadoop ne sait pas encore le faire efficacement.

Aucun plan de remplacement de bases de données

Certaines entreprises sont tentées de se débarrasser de leurs entrepôts de données traditionnels et de les remplacer par des clusters Hadoop : elles profiteraient ainsi des coûts bien moins élevés de la technologie open source. Mais Carl Olofson, analyste pour la société d'études de marché IDC,  met en garde : il ne faut pas mélanger les torchons et les serviettes.

D'après lui, les bases de données relationnelles qui équipent la plupart des entrepôts de données sont faites pour traiter de petits volumes de données leur parvenant régulièrement au cours d'une période donnée, telles que les enregistrements des transactions quotidiennes réalisées par les processus métier. En revanche, ajoute-t-il, Hadoop est plus adapté au traitement de vastes ensembles de données accumulées.

Et comme Hadoop est généralement utilisé dans des projets à grande échelle impliquant des clusters de serveurs et des équipes spécialisées en programmation et en gestion des données, ses mises en oeuvre peuvent devenir coûteuses, même si le coût par unité de données reste inférieur à celui des bases relationnelles. « Dès que vous additionnez tous les coûts induits, ce n'est plus aussi bon marché que ça en a l'air », fait remarquer Olofson.

Par ailleurs Hadoop fait appel à des compétences spécialisées en développement car il utiliseMapReduce, que peu de développeurs connaissent encore bien. Cela peut compliquer l'accès aux données dans Hadoop à partir de bases de données SQL, à en croire Todd Goldman, vice-président de l'intégration des données d'entreprise chez l'éditeur de logiciels Informatica Corp.

Plusieurs éditeurs ont développé des connecteurs qui facilitent le transfert de données entre systèmes Hadoop et bases de données relationnelles. Mais Goldman pense que, pour de nombreuses entreprises, la prise en charge de la technologie open source demande trop de travail. Selon lui, « il ne rime à rien de réorganiser entièrement votre infrastructure de données d'entreprise simplement pour Hadoop ». Ceci dit les choses pourraient changer avec l'arrivée progressive de distributions cles en main.

Une utilité à la mesure du tapage médiatique

Todd Goldman cite un exemple dans lequel le recours à Hadoop se justifie : pour jouer le rôle d'une zone de transit et d'une plateforme d'intégration de données permettant l'exécution de fonctions d'extraction, de transformation et de chargement (ETL).

Cette application n'est sans doute pas aussi palpitante que tout le battage autour d'Hadoop pourrait le laisser paraître, mais Goldman affirme qu'elle est particulièrement adaptée lorsqu'un service informatique doit fusionner de gros fichiers. Dans de tels cas, la puissance de traitement d'Hadoop peut s'avérer utile.

D'après Michael Driscoll, Hadoop est efficace dans le traitement des processus ETL parce qu'il répartit les tâches d'intégration entre plusieurs serveurs d'un cluster. Il ajoute que l'utilisation d'Hadoop pour intégrer des données et les stocker temporairement afin de les charger dans un entrepôt ou une base de données peut justifier l'investissement dans cette technologie. Ce serait un premier pas en vue de projets plus vastes sachant mieux tirer parti de l'évolutivité d'Hadoop.

Evidemment, des sociétés Internet de premier plan comme Google, Yahoo, Facebook et Amazon.com sont déjà de gros utilisateurs d'Hadoop depuis des années. Et de nouvelles technologies qui remédient à certaines insuffisances d'Hadoop apparaissent. Par exemple, plusieurs fournisseurs ont publié des outils d'analyse en temps réel des données Hadoop (comme Spark).

Au final, le plus important pour les responsables informatiques et dirigeants d'entreprise est de dépasser le tapage médiatique et de comprendre par eux-mêmes comment intégrer Hadoop à leur fonctionnement. Comme le dit Kelly Stirman, « cet outil puissant est capable de prendre en charge de nombreuses fonctions d'analyse. Mais, ajoute-t-il, la technologie n'en est encore qu'à ses balbutiements. »

« Il y a tellement de battage autour que les gens croient qu'il peut presque tout faire, constate-t-il. En réalité, c'est une technologie très complexe mais encore à l'état brut, qui a besoin de beaucoup d'attentions et de manipulations avant de devenir utile et rentable. »

Pour approfondir sur Big Data et Data lake