Le Big Data pour consolider ses données de sécurité : oui, mais de manière ordonnée
Gartner recommande une sérieuse préparation afin d’aligner la collecte et le stockage des données sur les objectifs métiers et les besoins de la plateforme d’analyse ou du prestataire de service managé qui sera éventuellement chargé de la surveillance.
Le monde de la cybersécurité s’intéresse à l’analyse de données en grands volumes – le fameux Big Data – de longue date. Le sujet était déjà dans de nombreux esprits en 2011, une éternité dans l’univers des nouvelles technologies, mais en apparence uniquement : l’adoption réelle prend du temps. Et justement, Pete Shoard, Craig Lawson et Gorka Sadowski, ont publié, en septembre dernier, une note à l’intention des clients du cabinet Gartner souhaitant jouer la carte du Big Data pour gérer leurs données de sécurité.
La motivation de base est souvent simplement économique : la tarification de la plupart des systèmes de gestion des informations et des événements de sécurité (SIEM) encourage à la frugalité dans le volume de données traitées, et à l’humilité dans les périmètres couverts. Comme les analystes le rappellent, les traces d’activités comportent beaucoup de bruit et décider du filtrage n’est pas forcément aisé. Qui dit que, dans le bruit de fond, ne se cache pas des signaux faibles pertinents ? Las, pour déceler ces signaux, encore faut-il disposer d’outils capables d’exécuter rapidement des requêtes complexes sur de gros volumes de données.
Pour les analystes, la consolidation des données de sécurité ne manque pas d’avantages, « le principal étant le contrôle du flux de données vers un prestataire de services de sécurité managés ou un SIEM » : c’est le client, in fini, qui décide de ce qu’il veut envoyer à partir de son entrepôt unique. Accessoirement, la consolidation implique aussi que « des éléments tels que les mises à jour des dispositifs de sécurité ont un effet minime sur la continuité des services de sécurité et réduisent le besoin de consultants pour intégrer et configurer de nouvelles sources de données ».
Et ce n’est pas le seul avantage : « l’enrichissement des données est possible pendant une phase de traitement initial ». Ce qui permet d’ajouter des éléments de contexte à des données brutes, qui pourront être utiles aux traitements consécutifs. Il peut s’agir, par exemple, de rapprocher directement les adresses IP d’hôtes des données d’attribution du serveur DHCP, ou encore de comptes utilisateurs.
Mais tout n’est pas rose pour autant. Car cette intégration peut s’avérer complexe : « la plus grande difficulté, liée à l’utilisation de plateformes en code source ouvert pour stocker et gérer les données, est l’effort associé à l’intégration des données dans le réservoir Big Data dans un format qui est utile et efficace pour le traitement en aval ». Cela peut donc passer par la création de parsers si ceux-ci ne sont pas déjà disponibles par les sources considérées. Mais cet effort est important : « le processus d’intégration fournit au réservoir Big Data une carte du mode de structure des données afin que la normalisation puisse avoir lieu ».
Et c’est sans compter avec la facture : « les coûts de déploiement et d’administration d’une plateforme Big Data peuvent être élevés si les données consolidées entraînent le stockage de plus de 100 Go/jour ». En outre, des arbitrages peuvent être nécessaires quant aux technologies retenues pour les données les plus récentes et les plus anciennes. Les mécanismes de protection des données intégrés à un système de stockage distribué présentent un intérêt évident en matière de protection de celles-ci. Mais l’efficacité d’utilisation des ressources de stockage déployées en souffre naturellement.
Les analystes de Gartner n’oublient pas une contrainte induite par la centralisation : « les données sensibles doivent être soit filtrées, soit dissimulées », notamment pour répondre aux exigences réglementaires relatives à la protection de la vie privée, à l’instar du règlement général de protection des données (RGPD).