Warakorn - Fotolia
Hadoop en self-service : la prochaine étape du Big Data
Aujourd’hui, le data scientist spécialisé Hadoop a tout du super-héros. Mais le self-service pourrait bien changer la donne. Cela ne s’effectuera pas du jour au lendemain.
Si la sphère des technologies Hadoop s’est quelque peu transformée, étendant le framework distribué vers de nouveaux usages, son utilisation reste toutefois plombée par la nécessité de disposer de compétences très spécialisée.
Mais, cela pourrait bientôt changer. Initialement cantonné à un style particulier, centré sur MapReduce et HDFS, des formules apparaissent pour pouvoir se passer de l’un de ces composants : Hadoop dans le Cloud est en effet en plein essor. Et les fournisseurs de technologies tentent de se rapprocher des data scientists vers des services Hadoop en self-service.
Pour s’attaquer à la complexité d’Hadoop, Spark est d’abord apparu sur le marché. Ce framework a pour mission d’améliorer le modèle de traitement des données de MapReduce et d’ajouter un niveau d’abstraction supplémentaire pour les développeurs. Les développeurs Java doivent encore remonter leurs manches, mais n’ont toutefois plus à s’intéresser à la plomberie. C’est également cette même approche qui a entraîné la création d’outils SQL pour Hadoop, pour étendre le framework à une plus large audience.
Pourtant, il reste un problème : la mise en production d’Hadoop et Spark nécessite toujours des super-héros aux pouvoirs étendus : l’administration système, le développement Java ou l’ingénierie de la donnée. Et pourquoi pas celles liées à la data science et à la statistique ?
Des super-héros de la donnée
Avec l’arrivée d’Hadoop, la fonction Data Scientist s’est envolé, mais il est apparu que, finalement, Hadoop n’était pas la meilleure technologie pour ces profils. Cela en a donc restreint l’adoption, car ces super-héros, issus de l’ingénierie de la donnée ou de la data science, étaient une denrée plutôt rare.
Leur principal problème : cet accès à l’infrastructure qui gère les traitements de données. Il existe de nombreux problèmes de configuration que l’on doit résoudre. Celui portant sur l’allocation des ressources en est un.
Pour cela, les fournisseurs de technologies travaillent à résoudre ce problème. Et aujourd’hui, on peut considérer leurs actions comme une première étape vers le self-service. C’est par exemple le cas de Databricks. Le père de Spark a présenté en début de mois Databricks Serverless Pools (en béta) qui vise à faciliter l’accès à cette infrastructure de la donnée et à éviter ce problème d’allocation.
Même son de cloche chez Cloudera, avec son Data Science Workbench, qui s’appuie sur les containers pour isoler les jobs des data scientists à exposer sur Hadoop. L’offre s’appuie sur la technologie de Sense.io que Cloudera a racheté l’année dernière.
Une voie qu’emprunte aussi Hortonworks avec un partenariat noué avec IBM. Si, à travers cette alliance, Big Blue préfère se ranger derrière la distribution Hadoop d’Hortonworks – abandonnant du coup la sienne - , le pure-player Hadoop a aussi annoncé qu’il devenait revendeur de Data Science Experience, une solution IBM dont la vocation est notamment de soulager les data scientists de certaines opérations de configuration.
Datameer, Domino Data Lab, Pentaho et Platfora travaillent aussi à apporter des fonctions en mode self-service aux data scientists.
Un Hadoop flouté
Mais cette évolution se traduit également dans le marketing qui jusqu’alors entourait Hadoop. Aujourd’hui, les grandes conférences liées au Big Data ont retiré Hadoop de leur nom : Strata+Hadoop World est devenue Strata Data Conference et Hadoop Summit, DataWorks. Assurément, l’industrie devrait inventer d’autres sobriquets dans les mois à venir.
Mais ce qui est clair est que l’objectif premier est de rendre autonome le traitement des données pour élargir la base d’utilisateurs. En témoigne les différentes annonces côté fournisseurs. Toutefois, il reste encore du chemin à parcourir.