Splunk : atouts et limites
Le succès de Splunk s’explique par sa simplicité et sa rapidité de mise en œuvre. Mais l’outil a aussi quelques limites qu’il convient de connaître.
Pour Michel Guiblain de Neocles, « le vrai plus de Splunk, c’est sa facilité d’installation et de déploiement même sur de grosses infrastructures hétérogènes comme la nôtre comportant beaucoup d’équipements techniques différents. En tant que responsable de production, dès que je veux faire quelque chose ou ajouter quelque chose, je commence par déployer un agent pour l’intégrer dans l’architecture globale fournie par Splunk. »
Un avis partagé par Olivier Ondet d’OBS pour qui « Splunk permet de déployer rapidement une solution permettant de collecter et d’explorer les données, afin de valider un concept ou mesurer un ROI avant une phase d’industrialisation. Splunk permet aussi, lors de la généralisation, d’optimiser le coût total des projets que nous déployons en optimisant à la fois l’infrastructure et le nombre de ‘jours/hommes’ nécessaires ».
Sa facilité à monter en charge est aussi unanimement saluée. Il suffit d’ajouter autant de serveurs que nécessaire. Les données entrantes sont automatiquement distribuées et les performances de recherche augmentent linéairement avec le nombre de machines.
Parmi les autres qualités de Splunk fréquemment citées, on retiendra la richesse de son langage SPL, son côté très agnostique porté par son « Forwarder universel » et ses multiples Splunk Add-ons, la souplesse de son fonctionnement qui évite d’avoir à « parser » les données en amont, et bien évidemment l’extensibilité procurée par son mécanisme d’Apps.
Pour Philippe Borrel, il est une autre qualité à ne pas négliger « la convivialité et le nombre d’assistants graphiques disponibles ainsi que les nombreux tutoriaux clairs bien que presque exclusivement fournis par l'éditeur en anglais, font de Splunk un très bon outil pour aborder la data science pour les personnes non ou peu initiées ».
Les limites de Splunk
On a longtemps reproché à Splunk son incapacité à réaliser simplement et automatiquement des corrélations ou encore à compresser les données pour limiter la volumétrie du stockage disque.
Ces reproches ont été effacés par les innovations apportées par les versions 6.2, 6.3 et 6.4 de Splunk. Aujourd’hui, le principal frein à son expansion demeure son modèle de Licensing. Splunk limite le nombre de nouvelles données pouvant être indexées par jour. Il existe bien une version gratuite mais celle-ci plafonne à 500 Mo/jours.
Lorsque l’on acquiert une licence Splunk Enterprise, on achète un droit d’indexation pour un certain volume de données ajoutées quotidiennement à Splunk, peu importe la durée de rétention des données, le nombre d’utilisateurs ou de serveurs.
« Il faut savoir déployer Splunk d'une manière prudente et contrôlée. » explique Pierre Kirchner dont l’implémentation Splunk ingurgite quelque 500 Go par jour. « Chez Natixis, nous avons mis en place des mécanismes de filtrage pour n’indexer que les données pertinentes. Pour beaucoup d’équipements, on prend la totalité des Logs parce que la volumétrie n’est pas énorme et que les parseurs existent déjà en standard. Mais sur d’autres technologies - et notamment sur les technologies Microsoft relativement verbeuses - on a mis en place des filtres pour contenir le volume de logs ».
Et d’ajouter : « pour bien définir notre filtrage, nous sommes partis de la définition du besoin, autrement dit de ce que l’on voulait chercher et des scénarios que l’on voulait mettre en place. On a par exemple travaillé de pair avec les experts de l’Active Directory pour faire la sélection des données vraiment pertinentes. Au final, la gestion des données à faire ingérer par Splunk est un travail collaboratif entre plusieurs entités de la DSI. »
Un avis partagé par Michael Guiblain qui estime essentiel « d’avoir des personnes qui connaissent par cœur l’infrastructure pour trier les bonnes données et éviter d’indexer des données inutiles ».
Il souligne toutefois que les tarifs étant fortement dégressifs avec la volumétrie, seules les premières tranches sont compliquées à budgétiser. En fait, le temps que le produit fasse ses preuves auprès des directions.