Solutionary choisit MapR pour ses analyses Big Data en temps réel

L'éditeur de la solution de sécurité ActiveGuard a adopté MapR et Hadoop comme réservoir principal pour alimenter ses analyses Big Data. Retour sur cette expérience d’un précurseur.

Solutionary fournit des services de sécurité managés et des renseignements sur les menaces. L’entreprise a depuis peu recours à la distribution Enterprise Database Edition de MapR (anciennement M7) pour accélérer les processus d'analyse sur sa plateforme de sécurité Active Guard dans le Cloud.

La société collecte une quantité colossale de données structurées et non structurées (les fameux Big Data) issues des réseaux, de bases de données et des applications de ses clients. Elle traite ensuite ces données et les stocke dans un Data Lake sous MapR, avant de les analyser en vue de déceler des menaces de sécurité.

Dans le système Hadoop, les équipes de Solutionary chargées de la recherche de menaces exploitent des outils tels que Drill pour effectuer des analyses prédictives.

Drill est un des outils « SQL-on-Hadoop » conçus pour faciliter l'utilisation de Hadoop en permettent d'exécuter des requêtes SQL en natif sur des ensembles de données multi-structures.

Les temps de réponse sont aujourd’hui inférieurs à une seconde, affirme Scott Russmann, directeur du développement de logiciels de la société.

La configuration du Data Lake permet également à Solutionary de conserver la multitude de structures et de formats de données utilisés par les différents clients, plutôt que d'avoir à les convertir en bloc dans un seul et même schéma.

« Cela revient à faire exactement l'inverse de ce que nous avons toujours connu, constate Scott Russmann. Jusqu'à présent, l'administrateur de base de données définissait le modèle de données et il n'était pas question d'en sortir. Ce nouveau concept est donc une petite révolution. »

Mais Scott Russmann prévient que les lacs de données ne sont pas à la portée de tous. Ainsi, une trop grande flexibilité des données peut constituer un danger.

« Cela représente un changement culturel considérable, ajoute-t-il. Beaucoup de gens sautent à pieds joints dans cette nouvelle aubaine médiatique sans réfléchir au moyen de structurer les données. Ils se contentent de les y déposer et de les structurer au fil de l'eau. Cela peut représenter un coût et une charge de travail énormes, et mener l'entreprise à sa perte. »

Comme un poisson dans l'eau ?

Une chose est sûre en ce qui concerne les lacs de données : si un projet n'est pas géré correctement, il peut couler à pic. L'analyste de Gartner, Nick Heudecker explique que si les questions telles que la sécurité et la gouvernance des données ne sont pas prises au sérieux, « cela peut se traduire par la violation de grandes quantités de données ou la prise de décisions inappropriées ».

Il ajoute que cela demande des compétences en analytique encore peu répandues : être capable de tirer une valeur métier tangible des informations du lac de données n'est pas chose facile.

Souvent, les clusters Hadoop initiaux s'apparentent davantage à de simples Data Stores faisant office de systèmes d'alimentation, plutôt qu'à des solutions capables de remplacer les entrepôts de données traditionnels.

« Certains les considèrent comme une zone d'accueil et s'en servent pour déterminer les données à traiter et à transmettre en aval », confie Jack Norris, directeur des services marketing pour le fournisseur Hadoop MapR Technologies.

Transformer ces systèmes en lacs de données complets prenant en charge plusieurs solutions d'analytique n'est pas anodin. « Pour franchir le pas, ajoute Jack Norris, il faut posséder des fonctionnalités de qualité professionnelle dotées du même SLA et des mêmes fonctions de protection que le datacenter actuel. »

Les fournisseurs Hadoop eux-mêmes conviennent que le processus est complexe. « La difficulté est de taille », souligne Matt Brandwein, directeur du marketing produit chez Cloudera.

Sai Devulapalli, chargé du marketing produit et de l'analytique des données chez Pivotal, estime pour sa part que la technologie des lacs de données n'en est qu'à ses débuts et que les techniques requises ne sont pas simples à utiliser. Par ailleurs, les exemples de déploiements sont encore peu nombreux et malgré tout le battage autour de Hadoop, son taux d'adoption atteint tout juste les deux chiffres.

Reste que Solutionary et sa plateforme de sécurité ActiveGuard sont de ceux-là.

Pour approfondir sur Big Data et Data lake

Close