Machine learning : des apports certains en cybersécurité
Mais encore faut-il avoir les moyens d’en tirer profit. Et surtout, pas question de chercher à compter dessus pour remplacer des analystes : il s’agit plutôt de les « augmenter, en choisissant scrupuleusement les cas d’usage ».
Non sans un certain humour, Anton Chuvakin, du cabinet Gartner vient d’annoncer la publication d’une fiche conseil sur l’apprentissage automatique appliqué à la sécurité – le fruit « des cerveaux d’au moins deux docteurs ». Et celle-ci tend en premier lieu à confirmer la tendance que l’on peut retirer des témoignages de ceux qui ont adopté la technologie ou encore de certains tests d’efficacité : les techniques d’apprentissage automatique « sont utilisées aujourd’hui avec succès pour traiter maliciels, hameçonnage, anomalies réseau, accès non autorisé à des données sensibles, analyse comportementale des utilisateurs, hiérarchisation des vulnérabilités, et plus encore ».
Un marketing excessif
Mais voilà, ces techniques ne doivent être appréhendées comme une recette magique et absolue, d’autant plus que « de nombreux outils sont immatures ou survendus » soulignent les trois analystes ayant participé à la rédaction de la note, Anna Belak, Anton Chuvakin, et Augusto Barros. Car pour eux, c’est bien simple : « est-ce qu’intelligence artificielle signifie automatiquement “meilleur produit” aujourd’hui en sécurité ? Franchement, non ». Et c’est sans compter avec la multitude de « noms séduisants d’algorithmes et de modèles », l’utilisation d’un langage de niche « qui sonne bien », ou encore « les références excessives à l’IA ». Clairement, les analystes ne sont pas tendres avec les excès des équipes marketings de certains éditeurs.
En fait, la prudence est tout particulièrement recommandée vis-à-vis des attentes que l’on peut nourrir à l’égard de la technologie.
Une coopération homme/machine
Tout d’abord, « les outils basés sur l’apprentissage automatique sont rarement conçus pour remplacer pleinement des outils traditionnels existants ». Qui plus est, ils ne fournissent pas des réponses binaires, mais « une probabilité statistique » et s’ils sont efficaces pour débusquer « de nouvelles instances de menaces connues », ils ne peuvent pas « s’adapter à des vecteurs de menaces entièrement nouveaux ».
Dans ce contexte, les analystes formulent plusieurs recommandations. Et cela commence par ne pas chercher à remplacer les analystes par ces outils, mais plutôt pour les « augmenter » : « l’intellect humain est essentiel, tant dans l’équipe de l’éditeur que dans celle de l’utilisateur, pour comprendre les nouvelles menaces et tirer profit de l’apprentissage automatique pour s’en défendre ». Car c’est bien simple : « il n’y a pas encore d’intelligence artificielle capable de trouver des menaces qui n’ont pas été définies par un humain ».
Cibler précisément les usages
En outre, pour les analystes, il convient de se concentrer sur des cas d’usage précis : « les meilleurs outils ne le sont pas parce qu’ils font de l’apprentissage automatique, mais qu’ils l’exploitent avec succès pour fournir des résultats meilleurs que d’autres outils ». Concrètement, cela implique « d’évaluer les faiblesses et les manques dans ses capacités de cybersécurité existantes avant d’aller chercher des outils basés sur l’apprentissage automatique ». Pour y trouver des compléments.
Parmi les cas d’usage où la technologie a fait la démonstration de son efficacité, les analystes mentionnent la détection d’anomalies comportementales des utilisateurs (UEBA), autour de l’authentification et de l’accès aux données, la détection de maliciels sans signatures, la hiérarchisation des vulnérabilités suivant le risque – à partir de leur criticité, du renseignement sur les menaces, ou de l’exposition –, la détection d’anomalies dans le trafic réseau, l’identification de données sensibles, voire la lutte contre les bots, notamment.
Avancer avec circonspection
Et puis, l’équipe d’analystes invite à une certaine patience : pour eux, pas question de chercher à aller trop vite dans les démonstrateurs : il faut considérer au moins 30 jours, sur des données de production, « pour dégager des résultats utiles » et s’appuyer sur des indicateurs allant au-delà des simples taux de faux positifs ou des efforts d’ajustement et des besoins en sources de données.
La vérification des références clients est à prendre elle-même avec prudence : les analystes recommandent de demander quelles données ont été utilisées pour entraîner les outils, si elles ont conduit à des détections, si une supériorité a été démontrée par rapport à d’autres outils, ou encore comment sont gérés les éventuels faux positifs.
Surtout, attention, il peut être « tentant de tester le nouvel outil comme un produit de sécurité basé sur des règles, mais il faut le tester comme le produit basé sur l’apprentissage automatique qu’il est ». Et « la leçon clé est qu’il faut se concentrer sur le test des résultats, pas sur celui des algorithmes ».