Hadoop World : avec Impala, Cloudera ne veut plus limiter Hadoop à MapReduce
A l’occasion d’Hadoop World, Cloudera, l’un des pure-players Hadoop, a présenté son projet Open Source Impala, un moteur de requêtes SQL pour interroger des données stockées dans Hadoop et HBase. Une façon de hisser l’environnement Hadoop au niveau des compétences SQL plus populaires dans les entreprises.
De la simplification naitra l’adhésion. Cet adage pourrait en partie résumer l’annonce par Cloudera d’Impala et d’Enterprise RTQ (Real-time Query) lors de l’édition 2012 d’Hadoop World, qui se tenait du 23 au 25 octobre à New York. Un événement clé pour le monde du Big Data et de l'analyse de données, dont Hadoop constitue aujourd’hui l’un des piliers technologiques.
Selon les analystes, le segment des données en volume ne devrait être à l’origine que de 28 M$ d’investissements en 2012, mais il sera l’un des moteurs de la dépenses IT et de la croissance d’ici à 2015. La route reste toutefois encore jonchée d’embuches pour une plus large adoption technologique. La raison : la complexité de l’ensemble des briques qui constituent la sphère Hadoop. La simplification d’Hadoop est ainsi vue comme un point clé pour accélérer l’adoption de la technologie par les entreprises. Un point qu’avait notamment développé Pascal Laik, le directeur général pour la France d’Informatica en mai dernier, lors du lancement de la version 9.5 de sa plate-forme. Cette plate-forme avait notamment pour vocation d’intégrer très étroitement le monde Hadoop dans une démarche globale de traitement des données, afin de le rapprocher des autres technologies de gestion des données. « «Nous souhaitons ainsi rendre Hadoop plus accessible, sans avoir à aller chercher d’autres développeurs», nous avait-il expliqué, soulignant « la complexité des technologies Hadoop et MapReduce ». Sans compter sur le manque de compétences et de profils spécialisés Big Data et Hadoop.
La simplification, justement, était l’un des arguments clés de Cloudera lors de la présentation d'Impala et de son implémentation dans Enterprise RTQ (Real-time Query) lors de cet Hadoop World. Impala est un moteur de requête distribué et Open Source pour Hadoop qui vient compléter, sinon remplacer MapReduce. Impala a notamment été développé par Marcel Kornacker, à l’origine du moteur de requête F1 de Google. Résultat de deux ans de développement interne chez Cloudera, le projet est confié à la fondation Apache - également le fief d’Hadoop. L’ambition d’Impala est d’en terminer avec le traitement en mode batch des données stockées dans HDFS ou des bases de données HBase en proposant un système basé sur des requêtes SQL standard . Et ce en temps réel, souligne alors Cloudera. « Cloudera Impela porte Hadoop au delà du traitement limité en mode batch de MapReduce, ajoute encore Mike Olson, le CEO de Cloudera. Jusqu’à présent, les entreprises devaient limiter leurs manipulations d’Hadoop parce que le traitement en mode batch de MapReduce était trop lent pour certains problèmes critiques liés aux métiers. »
Cloudera Enterprise RTQ implémente ainsi Impala en production et se présente comme une plate-forme intégrée et globale permettant à la fois de gérer en temps réel ou en mode batch des données structurées ou non structurées, explique encore Cloudera.
Ce tandem, commente Matt Aslett, directeur de recherche en data management et analytics du cabinet 451 Research, s’avère être une avancée clé en permettant aux entreprises de capitaliser sur leurs compétences et leurs outils SQL existants pour bénéficier du potentiel de l’analytique en temps réel, appliqué à de grands volumes de données structurées et non structurées stockées dans Hadoop. »