SAS Institute propose l’analytique in-memory pour Hadoop
A l’occasion de la Strata Conference, SAS Institute a annoncé une solution permettant de réaliser des analyses en mémoire de données stockées dans Hadoop.
Afin de rapprocher temps réel et données Hadoop et d’étendre les capacités d’analyse de données de ses solutions vers le monde du très populaire framework, SAS Institute a annoncé In-Memory Statistics for Hadoop. Sa particularité ? Connecter la technologie d’analyse de données en mémoire du groupe à Hadoop afin d’accélérer les processus analytiques opérés sur les données stockées dans un cluster Hadoop.
La solution, dont la commercialisation est prévue pour la mi-2014, vise surtout les data scientists, ces statisticiens très gourmands en méthodes d’analyse de données avancées et qui représentent l’une des cibles premières de l’éditeur. Avec In-Memory Statistics for Hadoop, l’idée est donc d’étendre cette capacité d’analyse et la technologie In-Memory Analytics du groupe vers le monde Hadoop, afin de proposer une solution capable de gérer tout le cycle de vie de l’analytique. Notons qu'In-Memory Analytics sert également de socle à Visual Analytics, la solution de visualisation de données du groupe.
Cette approche qui consiste à conjuguer Hadoop au temps réel n’est pas une première. Mais elle vient combler ce que nombre d’observateurs considèrent comme une lacune du framework : son mode batch et MapReduce qui ralentissent la production d’analyses et privent les entreprises de capacités temps réel sur Hadoop. On se rappelle par exemple que Cloudera avait décidé d’implémenter le projet Apache Spark (analyse in-memory depuis Hadoop) dans sa distribution Hadoop pour permettre de répondre à ce problème. Terracotta, propriété de Software AG, a également développé un connecteur Hadoop pour sa plate-forme In-Memory BigMemory.
SAS In-Memory Statistics for Hadoop charge ainsi les données Hadoop en mémoire et permet d'effectuer de multiples analyses au sein d’une même session et dans un environnement multi-utilisateurs, précise l’éditeur. En gros, il s’agit d’éviter les accès disques d’une part - les analyses sont réalisées en mémoire. Mais également de proposer une interface Hadoop unique aux utilisateurs SAS, plus aguerris aux systèmes de requêtes de la maison qu’aux développements MapReduce. « Les data scientists, ceux qui modélisent les données ainsi que les statisticiens n’ont plus besoin d’un patchwork d’outils car nous éliminons la nécessité d’avoir recours à différents langages de programmation », explique ainsi Oliver Schabenberger, directeur sénior chez SAS en charge des activités Analytic Server Research and Development.
Outre le fait de proposer un atelier de développement pour la création de modèles, indique SAS, SAS In-Memory Statistics for Hadoop supporte nombre d’algorithmes statistiques et de techniques de machine-learning, un système de recommandation et d’analyse textuel : arbre de décision, analyse de variation, modèles linéaires sont notamment cités. Les distributions Hadoop de Cloudera et de Hortonworks sont aujourd’hui supportées.