echiechi - Fotolia

Juvénal Chokogoue (auteur) : Hadoop n’a pas été conçu pour être utilisé par les métiers

Auteur de « Hadoop : devenez opérationnel dans le monde du Big Data » et consultant chez Capgemini, Juvénal Chokogoue revient avec la rédaction sur le niveau de maturité des entreprises françaises face à Hadoop et sur l’évolution de l’écosystème du framework.

LeMagIT s’est entretenu avec Juvénal Chokogoue, auteur de « Hadoop : devenez opérationnel dans le monde du Big Data » (Editions ENI), et consultant Insights &BI chez Capgemini. Il donne un coup d’éclairage sur un écosystème quelque peu confus où s’entrechoquent nombre de technologies. Quitte à perturber parfois les entreprises.

LeMagIT : Votre ouvrage aborde le problème de la compréhension des technologies Hadoop. Selon vous, les entreprises françaises ont-elles atteint un niveau de maturité suffisant pour faire éclore des projets en production, et non plus se cantonner aux PoC sans vrai usage à valeur ?

Juvénal Chokogoue : La question ne porte pas sur le niveau de maturité des entreprises, mais plutôt sur leur niveau de prise de conscience quant à l’usage qu’elles pouvaient faire d’Hadoop à large échelle pour améliorer leur business.

 Et nous avons constaté que toutes les entreprises françaises n’ont pas le même niveau de prise de conscience. Il y a d’une part les entreprises qui, pour le moment, utilisent Hadoop, mais ne sont pas focalisées sur l’avenir. C’est ici qu’on retrouve le plus de PoC. Celles-ci considèrent Hadoop surtout comme un levier de réduction de coûts (notamment grâce à HDFS) qui leur permet de gérer le stockage de leurs données en volume plus efficacement grâce à l’agilité qu’il apporte.

D’autre part, d’autres entreprises  sont résolument tournées vers le futur. Dans la majeure partie des cas, nous avons pu constater qu’il s’agissait d’entreprises qui ont pris le train de la Nouvelle France Industrielle (NFI)  initiée par Arnaud Montebourg, dont la feuille de route a été validée en juillet 2014. Il s’agit principalement de grands groupes français tels qu’Orange, La Poste, GDF Suez, Alstom, AXA, et Société Générale entre autre. Par ailleurs, dans l’ouvrage, nous détaillons le cas de 2 entreprises qui ont mis en production des projets  impliquant Hadoop (Air France et EDF, Ndlr).

En somme,  l'engouemenent pour Hadoop est bien réel en France et partout ailleurs en Europe, peut-être pas au même rythme qu’aux Etats Unis, mais il est bien réel.

LeMagIT : Hadoop est souvent associé à une sphère de technologies variées. Pour n’en citer que certains, Spark, Flink, Kafka, Storm, floutant quelque peu la frontière fonctionnelle entre chaque composant. N’est-ce pas un frein à l’apprentissage et comment faire pour s’y retrouver ?

Juvénal Chokogoue : En effet,  à la base, Hadoop n’a pas été conçu selon une approche « one-size-fits-all », c’est-à-dire comme un logiciel qui va fournir toutes les fonctionnalités à tous les uses cases possibles du Big Data, mais selon une approche modulaire. C’est pourquoi on dit qu’il est un « framework ». Cette approche a l’avantage de favoriser le développement de solutions spécifiques à une problématique Big Data précise tout en gardant le même socle technologique, Hadoop.

L’ensemble des solutions qui gravitent autour d’Hadoop aujourd’hui constitue ce qu’on appelle l’écosystème Hadoop.  C’est généralement le manque de compréhension de cela qui entraîne la confusion et freine l’apprentissage. Dans l’ouvrage, nous expliquons que le développement d’une solution en Hadoop est similaire à l’assemblage de plusieurs puzzles LEGO. Il faut savoir combiner l'ensemble des solutions de l’écosystème de manière à ce que cet ensemble réponde au besoin de la problématique métier considérée.  Ainsi, l’apprentissage d’Hadoop ne va pas se faire solution par solution ou logiciel par logiciel, mais selon ce que nous avons qualifié dans l’ouvrage de profil de métier Hadoop. Le profil de métier Hadoop fait référence aux compétences relatives à un ensemble spécifique d’outils de l’écosystème Hadoop pour répondre aux besoins d’une problématique métier précise.

LeMagIT : Les pure-players Hadoop (Cloudera, Hortonworks et MapR) ont fait évoluer leur modèle vers de véritables plateformes de gestion des données. Proposer une unique distribution Hadoop a-t-il aujourd’hui suffisamment de valeur sur le marché ?

Juvénal Chokogoue : En un mot, oui.  Cela pour deux raisons majeures : premièrement, Hadoop a été créé à la base pour des profils hautement qualifiés en développement logiciel. Or, l’expérience a montré à maintes reprises que l’adoption à grande échelle d’une technologie en entreprise et son succès ne dépendent pas des utilisateurs spécialisés, mais des utilisateurs métiers, plus familiers aux outils comme SQL, qu’au Java. Hadoop n’y fait pas exception.

Deuxièmement, malgré le fait qu’ils sont gérés par la fondation Apache, Hadoop et son écosystème technologique restent Open Source. L’Open Source n’est pas toujours rassurante pour les entreprises.

Pour  ces 2 raisons, les entreprises ont besoin d’un Hadoop dont l’évolution est plus maîtrisée, l’utilisation plus conviviale, le code plus sécurisé, le support plus développé et les compétences plus disponibles. Et c’est précisément pour fournir tous ces éléments que les distributions comme celles de Cloudera, MapR ou Hortonworks entrent en jeu.

LeMagIT : Dans votre ouvrage, vous abordez la question de l’intégration de moteur SQL à Hadoop. Quelle analyse faites-vous de ce rapprochement de deux mondes ?

Juvénal Chokogoue : Avec l’accroissement exponentiel du volume de données auquel nous assistons, il n’est pas difficile de prédire qu’Hadoop va devenir la plateforme standard de traitement de données, un peu comme l’est progressivement devenu Excel peu de temps après l’essor des PC. Problème : à la différence d’Excel, Hadoop n’a pas été conçu au départ pour être utilisé par les utilisateurs métier, mais par les développeurs. Or, comme nous l’avons dit plus haut, l’adoption à grande échelle d’une technologie et son succès ne dépendent pas des utilisateurs spécialisés, mais des utilisateurs métiers, comme le stipule la loi de Metcalfe). Heureusement, la fondation Apache a vite compris cela. C’est pourquoi dès l’année de la sortie d’Hadoop en 2009, elle s’est évertuée à le rapprocher du SQL.

Pourquoi spécialement le SQL ? Pour deux raisons majeures : premièrement parce que le SQL est le langage favori des utilisateurs métier. Pour que Hadoop les séduise, il faut qu’il leur donne la possibilité d’utiliser leur langage favori. 

Deuxièmement parce que les entreprises utilisent de plus en plus HDFS comme répertoire de stockage central pour toutes leurs données. Celles-ci proviennent pour la plupart des systèmes opérationnels (comptabilité, marketing, finance, Ressources Humaines, etc.) et la majorité des outils d’exploitation de ces données (par exemple  Business Objects, Oracle, SAS, Tableau,  etc.) s’appuient sur le SQL. Il faut donc des outils capables d’exécuter le SQL directement sur HDFS. Ce sont là les raisons majeures qui ont provoqué le développement des offres SQL sur Hadoop comme HAWQ, Hive, Impala, Phoenix ou encore Presto.

LeMagIT : Que manque-t-il aujourd’hui à l’écosystème Hadoop ?

Juvénal Chokogoue : Déjà, il faut savoir que l’écosystème Hadoop est très riche, plus riche que ce qui nous est familier. D’un point de vue fonctionnel, il est composé d’une centaine de technologies regroupées en 14 catégories : les langages d’abstraction, le SQL sur Hadoop, les modèles de calcul, les outils de traitement temps réel, les bases de données, les outils d’ingestion streaming, les outils d’intégration des données, les outils de coordination de workflow , les outils de coordination de services distribués, les outils d’administration de cluster, les outils d’interface utilisateur, les outils d’indexation de contenu, les systèmes de fichier distribués, et les gestionnaires de ressources.

En plus, le modèle de développement communautaire sur lequel est basé l’Open Source favorise un très haut niveau de réactivité et d’innovation, de nouveaux outils sont développés tous les jours  et déposés à la fondation Apache.  Aujourd’hui, les outils de l’écosystème Hadoop qui  nous sont familiers sont ceux qui ont été validés par la fondation. De nombreux autres, qui n’ont pas encore été annoncés publiquement, sont en cours d’incubation.  Il est donc très difficile de répondre à cette question. Par contre, comme nous l’avons signalé dans l’ouvrage, la technologie est la réponse à un problème. Ainsi, le développement de l’écosystème Hadoop est étroitement lié à  la découverte de nouveaux use cases impliquant Hadoop. Plus les entreprises prendront conscience de la façon dont elles peuvent utiliser Hadoop, plus l’écosystème Hadoop s’enrichira.

 

 

 

 

Pour approfondir sur Big Data et Data lake