APM, IA, cybersécurité : la stratégie de Datadog en 2021
Datadog veut s’imposer comme l’un des leaders de la supervision IT. Parti de l’infrastructure, l’éditeur américain fondé par deux Français a petit à petit développé son activité autour de la surveillance des applications, des logs, et s’oriente – à son rythme – vers la sécurité.
Le marché de l’APM connaît des évolutions importantes. Les compétiteurs sont nombreux et quelques gros acteurs se bousculent pour prendre les rênes d’un secteur porté par le cloud. À côté de Dynatrace, New Relic et Cisco Appdynamics, Datadog est le plus jeune des leaders identifiés dans son Magic Quadrant publié en avril 2021.
Pourtant ce n’est pas son domaine de prédilection. À l’origine, l’éditeur proposait uniquement un outil de supervision d’infrastructure. Il s’est tourné peu à peu vers la surveillance applicative.
« Datadog devient de plus en plus mature dans le domaine de l’APM », vante Renaud Boutet Senior vice-président, Product Management chez Datadog. « Nous avons bouclé la boucle en proposant une solution RUM (Real User Monitoring) réservée à la surveillance des applications accessibles depuis des navigateurs ou des mobiles. Avec la combinaison de nos offres APM et RUM, nous obtenons la traçabilité des requêtes jusqu’à la base de données ».
L’éditeur veut également compléter son approche de supervision réseau. Récemment, il a annoncé des capacités supplémentaires pour surveiller les données Windows Server depuis sa solution NPM (Network Performance Monitoring), se tournant vers la surveillance des infrastructures hybrides.
Datadog, l’APM à la dure
Dans son Magic Quadrant d’avril 2021, Gartner reconnaît à Datadog cette capacité à développer un portfolio conséquent de solutions adoptées rapidement par ses clients. En revanche, les données récoltées ne sont pas aussi facilement manipulables qu’avec d’autres outils.
« Un utilisateur néophyte de l’APM disposera d’une expérience plus guidée chez nos concurrents, mais ce que les clients cherchent en venant chez nous c’est l’accessibilité à toutes les données », défend Renaud Boutet. « Avec nos concurrents, ils vont bénéficier d’une très bonne expérience initiale, mais quand ils veulent obtenir une visibilité qui leur est propre, ils vont se retrouver un peu bloqués », ajoute-t-il.
Dans cette volonté d’ajouter davantage de paramètres à surveiller, l’éditeur s’intéresse maintenant à certains middlewares, notamment les bases de données.
« Nous allons davantage instrumenter les bases de données, souvent supervisées en boîte noire. Nous voulons faire en sorte qu’elles ne soient pas seulement surveillées depuis les logs applicatifs, mais avec les informations en provenance des bases elles-mêmes », promet Renaud Boutet.
Cette approche permettrait d’optimiser d’autres capacités et d’autres outils de Datadog, comme les alertes proactives.
« Tout le monde [les éditeurs] propose des alertes proactives et affirme que cela fonctionne à merveille. Nos clients nous le disent, ce n’est pas forcément la réalité, même chez nous. Certains problèmes ne sont pas encore surfacés. Nous préférons rester humbles, mais c’est un sujet complexe qui demande d’être au plus proche de la technologie sous-jacente », commente le responsable.
Et si les analystes de Gartner pointent du doigt une certaine complexité à visualiser les données, ils mettent en avant les capacités à identifier et trier les problèmes en rassemblant les logs, les métriques et les traces de manière contextualisée.
IA : trouver le « bon compromis » entre performance et coût
« Nous sommes capables de déterminer certaines signatures de services à partir des logs en les regroupant. Nous sommes en train d’y ajouter des algorithmes de détection d’anomalies », indique Renaud Boutet.
Ces traitements basés sur le machine learning apparaissent comme l’une des priorités de l’éditeur. En ce sens, Datadog s’approprie la problématique AIOps.
« Nous avons réorganisé nos objectifs AIOps. Nous commençons à livrer les premières fonctionnalités concrètes couplées à nos produits APM. Nous ciblons trois classes d’objectifs : Watchdog Alerts propose des alertes proactives, Watchdog Insights doit faciliter l’analyse automatisée des logs afin de surfacer des erreurs et des problèmes de latence à partir des traces, et Watchdog RCA permet de faire des analyses de causes profondes. L’on peut ajouter Deployment Tracking qui doit faciliter la détection et la comparaison des problèmes au moment des déploiements », liste Renaud Boutet.
Pour autant, le dirigeant reconnaît que toutes les données ne peuvent bénéficier du même niveau de traitement.
Renaud BoutetSenior Vice-président, Product Management, Datadog
« Si nous devions appliquer des méthodes de data science sur toutes les sources de données, nous serions obligés de vendre Datadog trois fois plus cher, car cela demande des ressources IT importantes », justifie Renaud Boutet. « Nous faisons au mieux ».
« Faire au mieux » consiste pour Datadog à tenter de réduire les coûts d’analyse et par la même occasion d’augmenter les performances. Pour cela, l’éditeur s’appuie sur un important déploiement de la technologie Apache Kafka.
« Depuis un an et demi, nous traitons les données depuis les flux et plus seulement depuis le data store. Cela permet de ne pas demander trop de ressources de calculs au moment des requêtes, en quasi temps réel. Nous “dévions” les flux vers des machines allouées aux data scientists grâce à notre déploiement massif de Kafka », assure le responsable.
« Il y a ce débat régulier en interne de savoir combien de ressources allouer à la data science. Cela pose les questions du coût, de la qualité des analyses, mais aussi des performances perçues par les utilisateurs. Il faut trouver le bon compromis », juge-t-il.
En outre, l’éditeur entend ajouter des moyens d’autoremédiations à l’avenir, mais les responsables et les équipes ont bien conscience que si l’automatisation de certaines tâches de tests et de déploiements est bien perçue, les clients ne sont pas forcément prêts à laisser les clés à l’éditeur pour réparer les problèmes. Datadog préfère pour l’instant se concentrer sur la collaboration des DevSecOps avec Incident Management.
« Incident Management est un premier pilier pour gérer la collaboration, mais aussi incorporer de la data science dans la gestion des incidents. Dans un futur proche, nous proposerons des flux de travail automatisés », prédit Renaud Bout.
« Il faut y aller progressivement : nos clients ne nous donneront pas immédiatement les clés pour redémarrer des VM, par exemple. Dans un premier temps, nous leur suggérerons des réparations sous forme de runbooks, qu’ils enclencheront s’ils le souhaitent. L’humain prendra la décision d’un changement de configuration ou d’un redémarrage », vante-t-il.
Intégrer la sécurité en production, un défi en soi
Si Datadog veut « boucler la boucle », l’éditeur doit s’intéresser logiquement à la supervision de la sécurité. Il a débuté par la détection des menaces en temps réel via son module Security Monitoring. « Nous avons commencé par la détection en construisant un SIEM consacré à la sécurisation de la production », rappelle Renaud Boutet.
En ce sens, l’éditeur a annoncé en février 2021 l’acquisition du Français Sqreen, l’éditeur d’une plateforme SaaS qui comprend, entre autres, un pare-feu intra-applicatif (in-app WAF) et un RASP (Runtime Application Self Protection) afin de détecter et éventuellement bloquer des menaces à l’exécution des applications.
Là encore, Datadog n’est pas le seul à s’être placé sur l’aspect sécuritaire. « Dynatrace a été le premier à se lancer, mais deux semaines plus tard nous annoncions les acquisitions de Timber et de Sqreen. Peu de temps après, Appdynamics a fait de même. Cela m’a surpris, nous pensions être davantage en avance de phases », reconnaît-il.
Cependant, l’éditeur entend se différencier de ses concurrents. « Nous ne sommes pas un concurrent de Splunk ou Crowdstrike, par exemple », affirme Renaud Boutet.
« Nous ne pensons pas que la situation concurrentielle change dans les années à venir », confirme Olivier Pomel, cofondateur et PDG de Datadog. « Pour nous, ce rachat s’inscrit dans notre vision de départ dont le but était de rassembler des équipes qui étaient jusqu’alors très séparées ».
« Nous voulons utiliser l’agent Datadog déjà en production pour apporter une couche de sécurité supplémentaire », déclare le vice-président product management.
C’est justement une des particularités de Sqreen : sa solution s’exécute au runtime. Si l’acteur français a su convaincre des clients comme Le Monde, Natixis ou Lenovo, toutes les entreprises ne sont pas prêtes à placer des agents de sécurité au niveau des environnements de production.
« Dans notre domaine spécifique du “ProdSec”, les éditeurs qui réussissent se placent au niveau de la CI/CD, pas au runtime. Pourquoi ? Parce que les CTO ne sont pas prêts à accepter de laisser les RSSI déployer des solutions qui pourraient nuire aux performances applicatives ou créer des problèmes », estime Renaud Boutet.
Ce serait d’ailleurs l’un des problèmes majeurs rencontrés par Sqreen dans le développement de son activité. Pourtant Datadog prétend pouvoir se démarquer sur ce point.
Renaud BoutetDatadog
« Le marché du RASP demeure relativement petit. Cependant, nous observons qu’il y a beaucoup moins d’investissement au niveau du pare-feu dans le cloud. Les budgets de sécurité ont tendance à s’orienter vers les applications. Nos clients sont intéressés par la sécurité de l’infrastructure, mais ils sont préoccupés par le fait que les développeurs puissent créer des trous de sécurité. Avec la multiplication des microservices et des API, cela provoque une forte anxiété des SecOps », contextualise notre interlocuteur.
« Le WAF a l’intérêt d’être en dehors de la chaîne de la production. Mais le WAF a le même problème que la data science : cela peut créer des faux positifs parce qu’il n’est pas assez près des applications. Si on lie les technologies RASP et in-app WAF avec l’APM, et qu’elles intègrent l’agent Datadog, le dialogue change », considère-t-il.
Renaud Boutet explique qu’un RASP n’a pas forcément la capacité à tirer des requêtes la propagation du contexte, ce que Datadog arriverait à faire en regroupant logs, traces et métriques.
La première étape sera de combiner l’agent de Datadog avec celui de Sqreen. Habituellement, les dirigeants de l’éditeur aiment à rappeler qu’un rachat entraîne une refactorisation de la solution acquise pour qu’elle s’intègre avec les briques existantes. Dans le cas de Sqreen, l’opération serait plus aisée, si l’on en croit les propos du PDG de Datadog.
« Nous trouvons que nos technologies sont très compatibles avec celles de Sqreen », indique-t-il au MagIT. « Sqreen est une équipe experte qui nous permet d’accélérer notre montée en compétences sur marché. C’est le bon candidat. Le fait que Sqreen est basée à Paris supprime des risques d’intégration parce que nous avons déjà une grosse équipe d’ingénierie à Paris. Nous avons pu valider que nous pouvions les faire travailler ensemble ».
La sécurité applicative, un « marché encore jeune »
Reste à savoir quand Datadog proposera cette capacité de se protéger contre certaines intrusions en production. Là, le PDG préfère garder sa carte face cachée, en ajoutant que ce type d’opération « débute généralement en quelques trimestres et se termine en quelques années ».
« Nous investissons dans la sécurité applicative à long terme. Nous ne sommes pas du tout dans la perspective d’acheter des clients ou un marché, de faire disparaître un concurrent. Nous cherchons des compétences, la compréhension d’un marché, une compatibilité culturelle et le désir de bâtir des solutions communes pendant des années », prévient Olivier Pomel. « Le DevSecOps est un marché encore jeune : il ressemble à celui du DevOps il y a dix ans. Nous avons déjà développé plusieurs solutions, mais il faut que ce marché atteigne une certaine maturité ».
Pour les clients existants de Sqreen, la transition vers le modèle sera fonction de « différentes options », qui auront chacune leur temporalité.
De leur côté, sur Gartner Peer Review, les clients de Datadog louent l’approche de l’éditeur et les capacités de sa plateforme, mais remarquent la faiblesse du support client, qu’ils contactent surtout au déploiement et quand ils peinent à maîtriser certaines capacités.