AIOps : New Relic veut réduire le bruit des alertes envoyées au SRE
L’éditeur a annoncé la disponibilité de New Relic AI, son outil AIOps adressé aux DevOps et aux responsables SRE. Cet ajout à la plateforme cloud New Relic One doit permettre d’identifier les incidents applicatifs plus rapidement et de les transmettre aux bonnes équipes.
L’AIOps est une tendance en forte croissance qui implique différentes interprétations suivant les organisations et les éditeurs. Elle doit dans tous les cas faciliter la gestion d’architecture et d’infrastructures de plus en plus complexes. New Relic, le spécialiste de l’APM, a présenté la semaine dernière son offre New Relic AI. Celle-ci est directement accessible depuis la plateforme cloud New Relic One.
« Il s’agit d’aider les DevOps et les SRE à détecter, comprendre et résoudre plus rapidement les incidents ou les dégradations tout en réduisant le bruit des alertes », explique Greg Ouillon, CTO EMEA de New Relic.
New Relic AI s’appuie comme avec One sur la base de données de télémétrie NRDB qui rassemble les logs, les métriques et les traces. L’éditeur entend les enrichir avec des sources externes d’événements, d’alertes et d’incidents et les corréler. Ainsi, New Relic AI serait opérationnel en moins de 24 heures.
Corrélation et explicabilité, les atouts affichés de New Relic AI
Selon Greg Ouillon, New Relic AI dispose de « trois grandes fonctionnalités ». La fonction Proactive Detection permet de corréler la télémétrie et les alertes entrantes de surveiller à l’aide de plusieurs algorithmes de détection d’anomalie. L’éditeur entend en premier lieu surveiller les quatre « golden signals » (latence, trafic, erreurs et saturation).
Ces corrélations sont alimentées par des décisions générées par le produit. Dans ce cas, New Relic utilise des techniques de regroupement de séries chronologiques, des algorithmes de similarité (distance de Jaro-Winkler, similarité cosinus), de différence (Fuzzy Wuzzy Ratio, Fuzzy Score, distance de Levenshtein, distance de Hamming, distance de Jaccard), de NLP, d’apprentissage supervisé, de renforcement et non supervisé.
« Nous sommes capables de monter un incident, de l’enrichir et de le signaler en temps réel via un canal Slack d’une équipe, par exemple », détaille Greg Ouillon. Pour enrichir le cas remonté, New Relic s’appuie sur les événements antérieurs à l’incident quelques minutes auparavant, des éléments de contexte dont une visualisation via un graphique.
Les décisions de notifications peuvent également être personnalisées par les clients via les paramètres du moteur de corrélation. L’utilisateur indique alors quelles données il veut prendre en compte, des seuils temporels, le nombre d’événements minimum à corréler, etc.
« Nous n’annonçons pas la disparition des alertes », tempère le CTO EMEA de New Relic. « Un SRE ou un DevOps doit absolument surveiller les alertes qui sont de nature prescriptive. La Proactive Detection est là pour l’aider à détecter tout ce sur quoi il n’a pas configuré d’alertes ».
New relic veut également réduire « le bruit » des alertes qui sont remontées à intervalles très (trop) réguliers. La fonction Incident Intelligence corrèle l’ensemble des événements, des alertes ou des incidents générés par la plateforme New Relic One, mais aussi ceux des outils connectés dans un « Master Incident ». « Cette fonctionnalité permet d’obtenir une explicabilité des événements corrélés et de fournir les causes profondes des problèmes » vante Greg Ouillon. Par exemple, la chute d’un microservice peut entraîner une cascade d’erreurs, d’alertes ou d’événements.
New Relic promet ainsi de rassembler ces éléments en un seul message enrichi d’informations contextuelles et de ne pas prendre en compte ceux qui bénéficient d’un traitement automatisé (exemple : une règle de redémarrage associée à un container). Ce rapport peut être envoyé dans l’environnement de travail utilisé par l’équipe ou la personne la plus à même de régler les problèmes remontés.
À noter que le traitement effectué par Incident Intelligence est réalisé depuis les centres de données américains de New Relic, peu importe leurs régions de stockage dans le monde.
« Les clients qui ont testé la solution ont observé une réduction de 50 % des bruits provoqués par les alertes et certains jusqu’à plus de 80 % », relate Greg Ouillon. Le CTO mentionne deux clients phares : Morning Star et Signify Health.
En principe, les algorithmes d’apprentissage par renforcement permettent de personnaliser ces deux fonctionnalités suivant les retours opérés par les clients concernant la pertinence du dossier d’incident envoyé.
Une intégration forte avec les outils tiers, mais pas d’autoremédiation
New Relic AI peut être configuré pour envoyer les notifications sur les outils existants de l’équipe SRE (Site Reliability Engineer) : Slack, PagerDuty, VictorOps, OpsGenie, Splunk, ServiceNow, Prometheus et Grafana. Pour les autres outils, il est possible de configurer un webhook (pour Microsoft Teams par exemple).
Greg OuillonCTO EMEA, New Relic
Ces messages peuvent être intégrés avec des workflows, des scripts, des fonctions programmatiques qui effectueront des activités de remédiation, de mitigation et de réparations. « C’est une plateforme ou un programme externe qui prendra la décision. Pour l’instant, New Relic n’est pas encore un moteur d’action. Ce n’est pas une direction que nous souhaitons prendre au lancement du produit », clarifie Greg Ouillon.
Dans un peu plus d’un mois, New Relic AI sera agrémenté d’une fonctionnalité nommée Incident Investigation. Le SRE recevra alors une fiche d’analyse qui présentera « toutes les entités aux comportements anormales qui corrèlent avec l’incident. Cela donne une cartographie de l’incident reporté », assure le CTO EMEA. Elle sera associée à un inventaire des incidents envoyés quotidiennement.
New Relic
L’éditeur veut également renforcer ses capacités d’analyse d’incidents récurrents en utilisant les historiques des données collectées.
New Relic AI est disponible depuis le 14 avril et l’éditeur propose une période d’essai. La tarification d’Incident Intelligence « est basée sur les événements ingérés afin de créer une prévisibilité pour les clients et de s’aligner le plus possible sur la valeur qu’ils voient en utilisant la solution », écrit un porte-parole.