Getty Images/iStockphoto
Apprentissage automatique et sécurité : comment évaluer les offres
Ils sont de plus en plus nombreux à mettre en avant leurs modèles basés sur le machine learning en remplacement des systèmes de détection à partir de signatures. Mais comment évaluer cette nouvelle technologie ?
L’apprentissage automatique est-il un composant indispensable de l’analytique de sécurité, ou un habillage accessoire de la décision d’achat du responsable de la sécurité IT ? Malheureusement, comme pour beaucoup de résultats produits par de tels algorithmes, la réponse n’est pas parfaitement tranchée.
La promesse du machine learning en cybersécurité est relativement à résumer : permettre d’identifier des menaces inédites, et en particulier celles tapies discrètement dans l’infrastructure pour de longues périodes. L’apprentissage automatique essaie de les débusquer en distinguant les comportements inhabituels des comportements traditionnels, en notant et corrélant un grand nombre d’événements simultanés.
Mais afin de savoir ce qui constitue une activité normale sur un site Web, un hôte de l’infrastructure, ou un flux réseau, les algorithmes doivent être entraînés sur de vastes volumes de données qui auront déjà été correctement étiquetés, identifiés et classés suivant des caractéristiques distinctives pouvant être assignées et réassignés de manière pondérée.
Cela peut sembler logique, mais l’apprentissage automatique constitue une boîte noire bien plus opaque que tout autre. Parmi toutes les offres disponibles sur le marché, comme faire la différence entre ce qui peut effectivement apporter une valeur ajoutée significative et ce qui n’est qu’un argument commercial dénué d’intérêt ? Est-il nécessaire d’être – ou de s’associer les services d’un – scientifique des données pour évaluer les affirmations des fournisseurs ? Voici une synthèse de ce que recommandent certains professionnels de la sécurité.
Evaluer les résultats, par les ingrédients
Sam Curry est le RSSI de Cybereason, un spécialiste de la détection et de la réponse aux menaces. Pour lui, les responsables de la sécurité devraient mettre en concurrence les fournisseurs non pas sur la base d’outils et de fonctionnalités, mais sur celle de résultats : « je m’intéresse beaucoup plus aux types de données collectées, où elles sont stockées, et comment. Mais comment les découpez-vous ? Comment les présentez-vous ? Comment interagit-on avec elles ? Comment les utilisez-vous ? » Les réponses à ces questions devraient être clairement exprimées dans le contexte sémantique de l’IT et des applications de l’entreprise.
Tout aussi important, le fournisseur devrait être capable de préciser comment son offre dépasse ou au moins suit le rythme de l’innovation des attaquants. « C’est une course », relève ainsi Curry : si le fournisseur « indique utiliser une analyse bayésienne, passera-t-il à autre chose si le temps montre que cela ne suffit pas ? » L’analyse bayésienne est l’une des dizaines de méthodes d’apprentissage automatique généralement utilisées. Il faut aussi compter avec la régression logistique, la régression linéaire simple, la méthode des k plus proches voisins, les arbres de décision, etc. Il est possible de les étudier, mais difficile d’en apprendre suffisamment assez vite pour prévenir la prochaine attaque.
Entre compréhension en profondeur et boîte noire, Larry Lunetta, vice-président d’Aruba Networks en charge du marketing des solutions de sécurité, trouve un milieu : pour lui, les analystes de sécurité devraient comprendre comment l’apprentissage automatique fonctionne globalement, et surtout que les résultats ne sont pas binaires.
Les alertes sont exprimées comme des probabilités, qui doivent être replacées dans le contexte d’indices additionnels. Et Lunetta de souligner ainsi que IntroSpect, le produit d’Aruba issu de la l’acquisition de Niara début 2017, présente justement ces indices aux côtés des scores de probabilité. « Quel type de trafic réseau avons-nous observé ? Quel type d’information de log était pertinent ? Quel était l’historique de l’utilisateur ou de l’appareil concerné ? Ce sont les types d’indices qu’un analyse recherche ».
Des outils simples pourraient suffire
Dennis Show, RSSI of SCIS Security, avertit de son côté sur le risque de se concentrer sur les buzzwords les plus récents autour de l’apprentissage automatique en sécurité : selon lui, des outils analytiques plus simples, combinés à des systèmes de gestion des informations et des événements de sécurité (SIEM) bien configurés peuvent prévenir la plupart des attaques.
Et pour Show, les entreprises n’ont pas besoin de doctorats en sciences des données pour évaluer les produits : « les responsables de la sécurité peuvent simplement poser des questions touchant aux principaux risques concernant leur organisation ». La clé étant là une évaluation précise des risques.
« Lorsque nous apportons nos services à nos clients, nous nous concentrons d’abord sur leurs cinq principaux cas d’usage. Par exemple, pour un organisme de santé, nous nous inquièterons en priorité du risque de vol de données de santé personnelles, ou du piratage d’appareils médicaux, via des vulnérabilités bien connues. Et nous créerons des modèles à partir de cela », explique-t-il.
Pour Show, les RSSI doivent avant tout savoir faire la différence entre modèles entraînés, ou supervisés, et non supervisés. Dans un ensemble de modèles supervisés – comme tous ceux qu’il a pu déployer jusqu’ici –, « nous donnons au système des données d’entraînement et nous lui indiquons comment il convient de les classer ou de les identifier ».
En théorie, un modèle non supervisé n’est pas entraîné pour quoi que ce soit. Cela recouvre des algorithmes qui définissent leurs propres références à partir de données brutes, puis déterminent des grappes de données et leur assignent des étiquettes. Le fournisseur faire ensuite correspondre ces étiquettes avec des choses qui ont un sens en sécurité, comme par exemple, une attaque en force brute.
« Le problème est l’inconnu », explique Show : « si le modèle revient et dit présente quelque chose que l’utilisateur ne reconnaît pas, il va devoir fouiller dedans comme n’importe quel analyste ne disposant pas de l’outil ».
Chow peut expliquer sommairement les deux principaux types d’algorithmes qu’il utilise le plus souvent – régression linéaire simple et méthode des k plus proches voisins –, mais il recommande de laisser la recherche de départ à un revendeur à valeur ajoutée : « un bon gestionnaire de compte disposera d’ingénieurs avant-vente pour aider à choisir ». Et encore une fois à encadrer les questions en termes de résultats : « cette technologie peut-elle me dire quand il y a une activité utilisateur anormale à une heure inhabituelle, ou si cela vient d’un pays avec lequel je n’ai pas d’activité commerciale ? »
Et outre un VAR, un acheteur reçoit souvent des recommandations de la part de pairs dans des organisations comparables, ainsi que des conseils d’analystes de l’industrie.
La preuve est dans le démonstrateur
En définitive, un ingénieur de sécurité interne ou un tiers de confiance devrait valider les affirmations d’un fournisseur avec un démonstrateur. Chow recommande là de tester des menaces avancées persistantes tout au long de chaîne d’attaque, depuis la reconnaissance initiale jusqu’à l’extraction de données, en passant par le dépôt des charges utiles.
La phase de test doit aussi permettre d’évaluer l’efficacité de l’outil pour détecter des signatures connues – une chose qui ne nécessite pas d’apprentissage automatique : « puis déclenchez-le avec un autre kit d’exploitation, un maliciel différent, un autre point d’infection, comme une clé USB plutôt qu’un URL compromis, par exemple ».
Après avoir testé toutes les détections basées sur des règles, Chow suggère de tester les aspects d’apprentissage automatique, avec des variations par rapport au comportement malveillant attendu, afin de voir si le système continue de voir au travers des similarités pour reconnaître la menace sans programmation supplémentaire.
Un test complet d’un démonstrateur peut aider les entreprises à déterminer la technologie qui répond le mieux aux besoins. Les outils d’apprentissage automatique peuvent offrir une meilleure sécurité aux entreprises, mais ils doivent être examinés correctement, éprouvés et testés, avant d’être déployés.