Dmitry Nikolaev - Fotolia
Splunk veut revaloriser l’image des informaticiens auprès des métiers
Les améliorations cosmétiques apportées dans la nouvelle version Enterprise 7 permettent aux informaticiens de proposer aux métiers des tableaux de bord pour mieux surveiller leurs activités.
Des petits riens qui changent tout. Lors de son salon .conf2017 qui vient de se tenir à Washington DC, l’éditeur Splunk a présenté une nouvelle version de sa solution de monitoring du SI avec des courbes d’activité qui se dessinent 20 fois plus vite et qui font désormais apparaître des légendes lorsqu’on les survole à la souris. Des améliorations purement cosmétiques, qui vont pourtant servir à mettre pour la première fois dans les mains des métiers des rapports d’activité qui n‘étaient jusqu’ici lisibles que par les personnels de l’infrastructure.
Officiellement, Richard Campione, le chef produit de Splunk, déclare qu’il s’agit de rendre les entreprises plus réactives face aux incidents qui menacent d’impacter leur business. « Il n’est plus nécessaire d’envoyer chaque technicien fouiner dans ses sources de données pour vérifier si un pic d’activité est une fausse alerte ou s’il nécessite l’investissement urgent dans de nouvelles ressources. Le chef de projet lance une recherche précise, pointe sa souris à un endroit de la courbe qui s’affiche instantanément et sait immédiatement comment réagir à une alerte », dit-il.
Mais dans les faits, les équipes d’infrastructure voient plutôt dans le nouveau Splunk Enterprise 7 une opportunité de revaloriser radicalement leur mission.
Redonner un rôle stratégique à la technique face à la montée en puissance des DevOps
« Depuis trois ans, les investissements dans la technique ont autant chuté que ceux dans les applications ont augmenté, car l’automatisation des outils de production (DevOps) a dévalorisé l’importance des équipes d’infrastructure. Mais grâce aux dernières évolutions de Splunk, nous pouvons scénariser avec les métiers des tableaux de bord compréhensibles par eux et les bâtir selon nos règles pour qu’ils génèrent en temps réel l’information pertinente dont ils ont besoin. Nous passons ainsi du simple service technique de mise en production au partenariat stratégique », commente ainsi Igor Herrmann, qui réalise des missions d’administrateur système en freelance pour de grands groupes, parmi lesquels Canal+.
En pratique, il s’agit de donner aux métiers l’accès à des tableaux de bord en ligne qui donnent une visibilité en temps réel de ce qui se passe dans le SI, sous un angle métier. Auparavant, la DSI devait éplucher les relevés de Splunk, les corréler dans un tableau Excel et envoyer une synthèse par e-mail aux métiers, au mieux une fois par jour. La procédure était si compliquée qu’elle était rarement mise en place.
Des performances x20, moyennant des changements dans le stockage des données sources
Outre afficher en une fraction de seconde une courbe qui prenait auparavant 5 secondes à se dessiner, la croissance de performances que revendique Splunk dans sa nouvelle version 7 est surtout censée servir à réduire le nombre de serveurs qu’il faut lui dédier. Afin de paralléliser les requêtes, Splunk Enterprise répartit en effet dans un cluster tous les logs en provenance des équipements, des OS et des applications qui constituent le SI.
Malgré les sollicitations du MagIT, l’éditeur a été peu clair sur la méthode utilisée pour multiplier par 20 - ou par 100, ou par 200 selon les interlocuteurs - l’affichage des données dans ses tableaux de bord. A priori, Splunk Enterprise ne va plus décoder à chaque requête des millions de lignes de log au format texte pour calculer la valeur numérique de chaque point dans une courbe d’activité, mais sauvegardera la première fois les mesures numériques trouvées (des « métriques ») et les réutilisera ensuite à chaque requête similaire.
De plus, Splunk Enterprise 7 pourrait à présent récupérer ses informations des serveurs Linux en passant par les démons Collectd et Statd qui produisent directement des métriques en se connectant aux outils de monitoring Open source tels que Nagios (activité système) et Wireshark (activité réseau).
Au final, il est probable que cette fonction d’accélération nécessite quelques adaptations dans l’installation de Splunk qui iront au-delà de la simple mise à jour. Il faudra sans doute aménager des nœuds dédiés aux métriques dans le cluster, ou déployer Collectd et Statd.
La puissance d’ElasticSearch mais du point de vue système
Le fait d’afficher des informations contextuelles par-dessus une courbe d’activité est le reflet de ce qui fait la supériorité de Splunk par rapport aux autres outils de monitoring du SI (parmi lesquels Centreon, Shinken ou Nagios) : la programmabilité de ses tableaux de bord.
« Sur les autres outils de monitoring, il est également possible de définir des seuils d’alerte à partir desquels un indicateur va changer de couleur ou une courbe va infléchir. En revanche, ils ne savent pas faire la différence entre 5% de 10 Go et 5% de 10 To, par exemple ; ce qui va engendrer des problèmes d’intervention, tantôt parce que des équipes vont se mobiliser sur des problèmes qui n’existent pas, tantôt car elles ignoreront des alertes en pariant qu’il s’agit encore d’un faux positif. Splunk apporte l’intelligence en plus. On peut le programmer pour qu’il affiche des courbes prédictives très exactes, qui indiquent quelle baie de stockage sera saturée à quelle date », détaille Romuald Fronteau, ingénieur au centre de services du prestataire Econocom, en France.
Tous les informaticiens que LeMagIT a rencontrés lors de l’événement ont avoué avoir d’abord essayé ElasticSearch, le moteur Open source du Big Data, qui dispose lui aussi d’un module Kibana de programmation de tableaux de bord. Tous ont déchanté. « ElasticSearch n’est pas conçu pour baser l’analyse sur l’activité de l’infrastructure. Il ne va pas se renseigner dans l’annuaire LDAP pour corréler les événements, il va produire des informations dupliquées à chaque fois qu’un processus recommence une opération en cas d’interruption réseau. Il repose sur une base Hadoop qui court le risque d’être modifiée, alors que les données de Splunk sont sécurisées en lecture seule. Et puis, il y a bien trop de changements d’une version à l’autre, obligeant à vérifier la compatibilité des tableaux de bord à chaque mise à jour », énumère Igor Herrmann.
Ajoutons à cela que les tableaux de bord de Splunk sont programmés à partir du langage de script SPL, qui reprend les habitudes de SQL et des scripts Unix, chers aux administrateurs. ElasticSearch repose pour sa part sur des objets JSON, plus dans la culture des développeurs.
Un moteur de Machine Learning qui doit encore faire ses preuves
Splunk a également insisté lors de sa présentation sur l’apport de nouvelles fonctions d’intelligence artificielle. Splunk Enterprise 7 est en l’occurrence équipé d’un moteur de Machine Learning censé retenir au fur et à mesure quel degré de criticité l’utilisateur attribue à un événement, pour que, un bout d’un certain temps, Splunk sache tout seul quand produire une alerte. Le principe est similaire à celui des clients e-mail censés apprendre au fur et à mesure ce qu’est un spam.
Pour aider l’utilisateur à apprendre au logiciel quoi chercher et qu’en faire, Splunk Enterprise 7 s’accompagne à présent d’un outil, MLTK (Machine Learning Toolkit) qui, à défaut d’autre chose, permettra d’intégrer dans le logiciel des règles déjà conçues par des éditeurs tiers. Parmi les extensions déjà disponibles, citons Insight for Ransomware, Security Essentials for Fraud Detection ou encore Cyber4Sight qui reprend les règles de sécurité que l’Américain Booz Allen Hamilton édite pour le compte des services secrets...
« Le problème est qu’on ne sait pas encore ce qu’on peut faire avec, d’autant qu’il n’y a que les data scientists qui soient capables de concevoir des algorithmes de Machine Learning efficaces. A mon avis, la plupart de administrateurs se contenteront d’utiliser le langage SPL qui sert à programmer les recherches dans Splunk. Car si le but annoncé est d’identifier automatiquement des alertes, il reste possible faire la moyenne d’une série de données observées et de la soustraire à la moyenne d’une série de données de référence. L’ampleur de la différence peut par exemple indiquer un niveau d’alerte à déclencher », commente Romuald Fronteau.
Des extensions et des tarifs plus cohérents
Splunk Enterprise 7 - qui existe également en version SaaS, sous le nom de Splunk Cloud 7 - est facturé selon la quantité des données monitorées par mois. Les versions d’essai permettent respectivement de monitorer gratuitement 500 Mo/jour et 5 Go pendant 15 jours. Il est à noter que les logs issus des containers ne sont désormais plus comptabilisés dans la facture tant qu’ils ne dépassent pas 20 Go par jour. Pour l’éditeur, il s’agit d’être plus cohérent avec un type de logs susceptible de démultiplier les mêmes informations selon les pics d’activité.
Splunk est traditionnellement vendu sous la forme de packages premium qui incluent des tableaux de bord thématiques. On trouve ainsi Splunk ITSI (IT Service Intelligence) qui range les alertes par couleur dans des « bacs à événements » pour simplifier le travail des centres de service dans la résolution des incidents. ITSI arrive aujourd’hui dans une version 3, dont la particularité est de corréler les logs d’une application avec ceux de toutes ses dépendances, afin de mieux regrouper les alertes et mieux prioriser les actions à entreprendre.
Autre package populaire, Splunk UBA (User Behavior Analytics) sert plus précisément à détecter les actions périlleuses des utilisateurs. Sa nouvelle version 4, qui bénéficie comme le reste de l’importation d’algorithmes de Machine Learning dédiés, est désormais facturée au nombre d’utilisateurs - ce qui est aussi plus cohérent qu’à la quantité de données.
À cela s’ajoutent encore des extensions, soit des règles particulières de Machine Learning, soit des modules pour monitorer une ressource en particulier. Parmi ces derniers, le plus notable est Insights for AWS Cloud Monitoring. Facturé 7 500 dollars par an, il sert à surveiller l’activité des machines virtuelles déployées dans le Cloud d’Amazon.
« Insights for AWS incarne à lui seul tout l’intérêt que les équipes infrastructures peuvent représenter pour les métiers. Grâce à lui, nous résolvons le manque de visibilité sur les coûts d’AWS. Splunk permet de mettre des seuils pour éviter que la facture des ressources en Cloud explose et c’est absolument critique de nos jours », conclut Igor Herrmann.
Fort de 13 000 clients et d’un CA de 950 M$ (en progression de 42% par rapport à 2016), Splunk espère atteindre 20 000 clients et un CA de 2 Md$ d’ici à 2020.