AIOps : PagerDuty tente de se différencier des acteurs du monitoring
PagerDuty revient sur les nouveautés de sa solution AIOps Event Intelligence. L’éditeur tente de se placer dans un entre-deux pour les organisations dont la gestion des opérations IT est largement distribuée.
PagerDuty a tenu sa première conférence en ligne : PagerDuty Summit EMEA. L’occasion pour l’entreprise de remettre en contexte les dernières annonces et mises à jour liées à ses produits, le tout entrecoupé de retours d’expérience, de communications « inspirantes » sur la crise en cours et un soutien au mouvement Black Lives Matter, d’une séance de yoga et de vidéos… de pandas.
Outre ses à-côtés essentiels, intéressants ou drolatiques, la conférence de l’éditeur avait surtout vocation de rappeler qu’il entre dans la danse de l’AIOps.
La plateforme SaaS du spécialiste de la réponse aux incidents (en temps réel s’il vous plaît) est souvent perçue comme une couche logicielle capable de rassembler les alertes en provenance de différents systèmes sources : outils de monitoring (Splunk, Dynatrace, Datadog, AWS CloudWatch…), de marketing, de sécurité, de gestion d’API, ou encore de service client. Au total, l’éditeur propose plus de 375 connecteurs pour s’intégrer avec ces services, mais aussi avec des outils de communication pour relayer les notifications d’erreur.
Depuis 2018, PagerDuty s’est engagé dans une démarche maintenant nommée AIOps, en commercialisant la solution Event Intelligence. Dans un premier temps, il s’agissait de gérer les flux de données en provenance de ces outils et de créer des workflows de routage automatisés pour automatiser l’envoi d’alertes aux bonnes équipes suivant certains critères établis à l’aide d’un moteur de règles.
Mêler réponses aux incidents automatiques et ajustements manuels
L’éditeur veut étoffer sa solution. Le 26 mai dernier, il a annoncé la disponibilité générale d’Intelligent Triage et sa disponibilité sur mobile, de Dynamic Service Directory, des tableaux de bord disponibles sur mobile (Business Response) ainsi que l’amélioration de la visibilité et de l’orchestration de sa solution AI Ops. Par ailleurs, il a présenté une intégration « out of the box » avec Slack et Microsoft Teams, deux outils de messagerie interne très utilisés par les équipes Ops, DevOps et de développeurs.
Intelligent Triage, présenté en septembre 2019, est associé à un algorithme qui groupe les alertes relatives à un même problème ou à une période temporelle, suivant le choix de l’utilisateur. Ces informations corrélées sont comparées grâce à d’autres algorithmes contenus dans Intelligent Triage.
Le premier d’entre eux consiste à proposer des recommandations de résolution en s’appuyant sur les incidents réparés par le passé. Une fenêtre affiche le problème, le moyen pour le résoudre et la personne en charge de cette opération de maintenance. Un algorithme analyse cette fois-ci en temps réel les incidents et les corrèle quand ils ont la même cause profonde. En principe, cela permet de réduire le bruit causé par les alertes. L’éditeur y ajoute un moteur de règles pour configurer des seuils des notifications d’incident ou de période ainsi qu’un outil d’annotation pour renseigner le reste de l’équipe de la solution à un problème.
Dynamic Service Directory ou l’annuaire de services dynamiques apporte une vue agrégée des services d’une organisation. Il doit permettre à un SRE ou à un responsable de consulter l’état des applications gérées depuis la plateforme de PagerDuty, les dernières alertes, les problèmes résolus et les responsables des opérations par service.
Dans la dernière mise à jour en date, PagerDuty y ajoute un niveau de granularité supplémentaire avec la vision des microservices et des gateways API, par exemple. En revanche, cela demande une certaine configuration : il faut connecter la source qui remonte les données du service en question et l’attribuer à la bonne personne.
Ne pas confondre AIOps et AIOps
Cette tendance AIOps prend chez les éditeurs. IBM, Dynatrace, New Relic, Splunk ou encore ServiceNow sont quelques-uns des acteurs qui proposent des fonctionnalités similaires. À chaque fois, il s’agit de réduire le bruit des alertes, de repérer la cause profonde d’un problème IT et de l’adresser à la bonne équipe, voire à la bonne personne dans l’équipe. Pour ceux-là, PagerDuty n’est qu’une passerelle pour les notifier. De plus, certaines des fonctionnalités proposées par l’éditeur pourraient entrer en conflit avec les capacités AIOps associées à des capacités de gestion des opérations de ces outils de monitoring. Un client pourrait se perdre dans la pléthore d’offres disponibles sur le marché.
Steve BarrettVP EMEA Sales, PagerDuty
« La notion d’AIOps ne prend pas le même sens pour tout le monde », considère Steve Barrett Vice President EMEA Sales chez PagerDuty. « Ce que nous essayons de faire avec notre plateforme, c’est de donner le choix aux clients. Il est donc clair que si les clients ont l’impression que tout est centralisé sur New Relic, par exemple, et que la réduction du bruit est atteinte, alors la valeur qu’ils perçoivent dans notre service est davantage liée à l’automatisation de la réponse aux incidents », admet-il.
« Ces mêmes clients ou d’autres peuvent avoir des équipes différentes qui n’ont pas le même niveau de maturité, qui n’ont pas migré l’ensemble de leurs services dans le cloud ou qui n’ont pas tout centralisé sur un outil comme New Relic. Nous essayons donc d’orienter nos clients, d’évaluer leur maturité opérationnelle, en particulier en ce qui concerne les outils de surveillance, leur niveau d’adoption du cloud et ce que peut leur apporter l’intelligence artificielle ».
Un modèle économique pertinent selon PagerDuty
Cette réponse à deux vitesses doit permettre à PagerDuty de gagner les faveurs des clients de solutions AIOps et d’autres, moins avancées. L’autre argument mis en avant par l’éditeur ? Le modèle économique. Si cette analyse algorithmique demande bien d’intégrer PagerDuty avec un CloudWatch, DataDog, Dynatrace ou autres, elle se fait sur des données d’incident brutes. Intelligence Event est facturée au nombre d’utilisateurs et non pas au volume de données récolté, a contrario de la plupart des plateformes de monitoring intégrant des fonctionnalités AIOps.
Le spécialiste de la réponse à incidents propose plusieurs forfaits pour les startups, les PME et les grands groupes. Si ce mode de paiement n’est pas forcément moins cher in fine, la maîtrise des coûts semble plus évidente qu’avec les services où le volume de données stockées et la puissance de calcul influent sur la facture mensuelle.
Enfin, cette approche semble éviter à PagerDuty d’entrer en concurrence frontale avec les acteurs qui proposent des connecteurs pour sa plateforme. Les clients peuvent en principe choisir à quel niveau ils appliquent des algorithmes sur leurs données opérationnelles. Preuve en est que PagerDuty a annoncé le 6 mai dernier une intégration avec Watson AIOps, qui sur certains points disposent de fonctionnalités similaires à Event Intelligence.
« Nous n’essayons pas de dominer l’ensemble du marché pour que vous n’utilisiez pas les autres outils. Nous nous concentrons sur l’intégration avec des outils pour les équipes DevOps distribuées. Oui, nous nous connectons avec les outils ‘central ops’, mais nous avons plutôt tendance à proposer un complément pour ceux-là », précise Steve Barrett.
S’il y a un véritable engouement chez ceux qui ont déjà pu tester ce type de solutions AIOps, il reste encore à convaincre les entreprises. Steve Barrett, lui, note un enthousiasme important dans les organisations dont « les équipes Ops et DevOps sont fortement distribuées », une des conséquences du Covid-19.
Pendant la conférence, Andrew Rundle, Principal Engineer chez l’hébergeur Claranet a expliqué que son équipe utilise pleinement PagerDuty et envisage d’utiliser les fonctionnalités AIOps, mais n’a pas encore passé le pas. PagerDuty compte 13 000 clients dans le monde et 2500 en Europe.