Cloudera rapproche son édition Enterprise des data scientists
Data Scientist Workbench reprend la technologie de Sense.io et propose un atelier greffé à Cloudera Enterprise. Depuis une interface Web, l’outil s’adapte à l’outillage de chaque spécialiste.
Cloudera a décidé de rapprocher les clusters Hadoop un peu plus près des Data Scientists. Ce pure-player du monde Hadoop a profité de l’événement Strata+Hadoop World qui s’est tenu aux Etats-Unis mi-mars pour annoncer un atelier dédié à ces très rares spécialistes et à leurs contraintes. Data Scientist Workbench, nom de la solution, met en fait à disposition des data scientists les outils dont ils ont besoin, et qu’ils peuvent consommer en self-service. A condition bien sûr que l’IT les ait préparés et installés. L’intérêt : travailler directement sur les données des clusters, avoir accès aux outils que l’on souhaite, que ce soit Python, R ou Scala, mais également des frameworks de Machine Learning, et enfin s’inscrire dans la logique de gouvernance et de sécurité de l’entreprise. Le tout depuis une simple interface Web.
Cet atelier est en fait un add-on aux solutions entreprises de Cloudera. L’outil sera disponible pour les utilisateurs des solutions Data Science and Engineering Edition ou Data Hub Edition de Cloudera Enterprise, a expliqué Matt Brandwein, Directeur, chef de produit, chez Cloudera.
Surtout, Cloudera livre avec Data Scientist Workbench une illustration concrète de ce qu’il souhaite faire de Sense.io, une société qu’il a récemment rachetée. « Notre objectif a été de porter les fonctions de data science de Sense en self-service à la plateforme d’analyse de données et de Machine Learning Cloudera Enterprise », souligne le responsable.
Pour cela, plusieurs ajustements ont été réalisés. Matt Brandwein liste par exemple l’intégration du code de Sense à Cloudera Enterprise et en particulier à Spark, Impala ainsi qu’à Hadoop pour permettre le requêtage et l’accès aux données.
Un autre point d’intégration : celui portant sur la sécurité. L’accès aux données est assuré via Kerberos et l’ensemble peut se connecter à un annuaire d’entreprise de type LDAP ou Active Directory. L’atelier supporte également le SSO (Single-Sign On). Bref, il s’agit de fondre les capacités de Sense.io dans ce que propose Cloudera Enterprise.
Eviter la copie des données
Les data scientists peuvent ainsi accéder directement aux données des clusters pour y effectuer leurs traitements, sans avoir à extraire et copier des jeux de données, partiels, sur leur poste de travail, décrit Cloudera dans un billet de blog. Surtout, et c’est là un point clé, Workbench est censé supporter les différents usages des data scientists et les soulager de leurs contraintes, comme l’installation d’un longue liste de projets Open Source avec lesquels ils analysent les données.
Pour cela, Cloudera s’appuie sur une architecture de conteneurs qui permet d’isoler les environnements de travail et les outils de chaque membre d’une équipe de data scientists. Un bon point lorsque l’on connait la diversité des outils et des configurations choisies par chaque expert. Cela favorise également les échanges entre équipes, assure encore le spécialiste Hadoop.
Avec Data Scientist Workbench, Cloudera fait ainsi un double clin d’œil : un premier aux data scientists et le second aux entreprises qui peinent à contrôler et sécuriser les environnements de ces derniers.
Toutefois, Cloudera n’est pas le premier acteur à avoir cette approche. Son outil se positionne en concurrence directe du Data Scientist Workbench d’IBM. Mais pour Matt Brandwein, il existe bien une différence. « Les deux outils sont centrés sur le même problème : donner la possibilité aux data scientists d’utiliser leurs outils préférés. La différence est que Cloudera Data Science Workbench fonctionne partout, dans tous les clouds publics et sur site, et reprend les fonctions de sécurité de gouvernance, de gestion ainsi que le support client offert par la plateforme de Cloudera », commente-t-il enfin.