Elnur - stock.adobe.com
Incident CrowdStrike : un bug de validation de contenu à l’origine de la panne mondiale
La vaste panne de la fin de la semaine dernière trouve son origine dans un défaut de validation du contenu destinée à la plateforme d’EDR Falcon de Crowdstrike. De quoi permettre à l’éditeur de tirer de premières leçons.
Mercredi, CrowdStrike a annoncé qu’un bug dans son système de validation de contenu était responsable d’une mise à jour défectueuse du fichier de détection qui a conduit à la panne mondiale de vendredi dernier.
Vendredi dernier, CrowdStrike a publié une mise à jour défectueuse d’un fichier de détection pour sa plateforme EDR Falcon, une mise à jour qui a provoqué le plantage de millions de systèmes Windows et des boucles de redémarrage. Bien que Microsoft ait déclaré que seulement environ 8,5 millions d’hôtes Windows – moins de 1 % du total – étaient affectés, la mise à jour erronée a causé des perturbations majeures dans des organisations telles que des hôpitaux, des compagnies aériennes, etc.
Mercredi, CrowdStrike a publié une mise à jour sur son centre officiel de remédiation et de conseils expliquant pourquoi et comment il a diffusé sa mise à jour problématique. Décrites comme un « examen préliminaire post-incident (PIR) », ces premiers constats précéderont une prochaine « analyse des causes profondes », vraisemblablement avec les conclusions finales de l’éditeur.
La mise à jour elle-même, selon CrowdStrike, était une mise à jour de configuration de contenu pour sa sonde Windows afin d’obtenir de la télémétrie relative à de nouvelles techniques employées par des acteurs malveillants. Bien que de telles mises à jour fassent partie intégrante des processus de Falcon, cette mise à jour spécifique a provoqué des plantages système chez les clients. La mise à jour a été publiée le vendredi 19 juillet 2024 à 04:09 UTC et le défaut a été annulé à 5:27 UTC.
Dans son PIR, CrowdStrike explique livrer ses mises à jour de configuration de contenu de sécurité aux sondes de deux manières : contenu de sonde et contenu de réponse rapide. Le contenu de sonde est entièrement testé ; il « inclut des modèles d’IA et d’apprentissage automatique sur la sonde, et comprend du code écrit expressément pour fournir des capacités réutilisables à long terme aux ingénieurs de détection des menaces de CrowdStrike ». Le contenu de réponse rapide, en comparaison, est utilisé pour « une variété d’opérations de correspondance de modèles comportementaux » et « fournit une visibilité et des détections sur la sonde sans nécessiter de modifications de son code ».
Selon le PIR, le contenu de sonde subit des tests unitaires automatisés, des tests d’intégration, des tests de performance et des tests de résistance avant d’être publié dans un déploiement progressif, qui commence par des tests internes chez CrowdStrike. Cependant, les mises à jour de contenu de réponse rapide, qui sont livrées en tant qu’« instances de modèles », sont configurées via le système de configuration de contenu de la plateforme Falcon, qui effectue des vérifications sur les mises à jour avant la publication via un validateur de contenu.
Comme l’a expliqué CrowdStrike, la panne a été causée par une mise à jour de contenu de réponse rapide avec une « erreur non détectée » que le validateur de contenu automatisé a manquée. Bien que CrowdStrike applique des tests de résistance au contenu de réponse rapide, les mises à jour ne subissent visiblement pas le même type de tests préalables à la publication que le contenu de sonde.
« Le 19 juillet 2024, deux instances de modèle IPC [pour Inter Process Communication, ou communications interprocessus, N.D.L.R.] supplémentaires ont été déployées. En raison d’un bogue dans le validateur de contenu, l’une des deux instances de modèle a réussi la validation malgré la présence de données de contenu problématiques », indique CrowdStrike. « En raison des tests effectués avant le déploiement initial du type de modèle (le 5 mars 2024), de la confiance dans les vérifications effectuées par le validateur de contenu et des déploiements précédents réussis d’instances de modèle IPC, ces instances ont été déployées en production ».
Pour éviter que cela ne se reproduise, CrowdStrike assure qu’il mettra en œuvre de nouvelles pratiques de test et de déploiement pour les mises à jour des contenus de réponse rapide. En ce qui concerne les tests, l’éditeur utilisera des processus de test supplémentaires tels que des tests locaux et des tests de mise à jour et de réversibilité du contenu. Il prévoit également de mettre en œuvre des vérifications de validation supplémentaires et d’améliorer la gestion des erreurs existantes.
En ce qui concerne le déploiement, l’éditeur a l’intention de mettre en œuvre un déploiement progressif « dans lequel les mises à jour sont progressivement déployées sur des portions plus grandes de la base de sondes, en commençant par un déploiement de canari ». Il indique en outre prévoir d’améliorer la surveillance des performances des sondes et des systèmes, de donner aux clients un plus grand contrôle sur la manière dont les mises à jour sont livrées, et de fournir des détails sur les mises à jour, via des notes de version auxquelles les clients pourront s’abonner.