Dave Palmer, Darktrace : « la qualité des données utilisées pour la modélisation est essentielle »
Le directeur technique de ce spécialiste des techniques d’intelligence artificielle appliquées à l’analyse du trafic réseau se penche sur les enjeux et les perspectives de cette nouvelle approche.
Il y a quatre ans, l’analyse comportementale appliquée à la sécurité était sur toutes les lèvres. Un nouvel eldorado avec ses porte-étendards, dont Fortscale, finaliste de l’Innovation Sandbox de l’édition 2015 de RSA Conference. Le marché était encombré par une multitude d’acteurs misant tantôt sur l’analyse des journaux d’activité, sur celle des points de terminaison de l’infrastructure à partir d’agents résidents, ou encore sur le trafic réseau (NTA, Network Trafic Analytics). Mais ce temps semble désormais bien loin, et Gartner anticipe la disparition de l’analyse comportementale comme marché isolé à l’horizon 2021. A travers une série d’articles, nous vous proposons de découvrir le regard que portent plusieurs experts sur cette évolution.
Dave Palmer, Darktrace : Nous vivons une époque où AI, ou ML, deviennent la norme pour programmer, développer des produits. Il ne s’agit pas de remplacer la programmation linéaire à laquelle nous sommes habitués, mais devenir une partie normale de la manière dont on interagit avec les ordinateurs, en particulier lorsque l’on traite de problèmes liés à de grand volumes de données, comme la sécurité.
Mais une question à poser consiste à savoir si l’apprentissage automatique est utilisé pour simplifier la vie de l’utilisateur ou celle du développeur. Et justement, dans de nombreux cas en sécurité, aujourd’hui, il ne s’agit pas d’améliorer la vie du client mais celle des personnes qui font le produit.
Par exemple, dans beaucoup de produits de protection des hôtes, postes de travail et serveurs, ou de sécurité réseau, l’intelligence artificielle et l’apprentissage automatique sont surtout là pour réduire les efforts nécessaires pour faire le produit.
Ce que je veux dire par là, c’est : « est-ce que les nouveaux anti-virus sont fondamentalement différents des produits historiques, basés sur des heuristiques ? Je ne le pense pas. Je pense qu’ils sont essentiellement construits d’une autre manière, d’une façon plus appropriée pour faire grandir votre activité en tant qu’éditeur ».
Le cas des produits intégrant des capacités de modélisation du comportement des utilisateurs est différent, que l’on parle de système de prévention des fuites de données (DLP), de passerelle d’accès Cloud sécurisé (CASB), de système d’analyse du trafic réseau (NTA), voire même de système de gestion des informations et des événements de sécurité (SIEM).
Là, je pense qu’il faut être prudent dans le choix d’activités ou non des capacités d’analyse comportementale, car la qualité des données utilisées pour la modélisation varie selon les domaines. Ainsi, si vous avez un déploiement de SIEM acceptable, mais sans couvrir toute l’infrastructure, et un système d’UEBA qui ne peut pas voir des choses très importantes comme ce qui se passe dans les applications cloud, vous risquez de buter rapidement sur l’effet « sapin de Noël » : l’incomplétude de la vision risque de conduire à de mauvaises décisions et alertes.
Si les données utilisées en entrée ne sont pas bonnes, on risque d’aggraver la situation. C’est pour cela que l’on s’attache à appliquer ces technologies au cœur du réseau, et au cœur du cloud, où il est plus facile de s’assurer que les bonnes données viennent alimenter le système.
Les SIEM et les moteurs d’UEBA autonomes dépendent fortement de décisions humaines sur les sources de données. Et il est malheureusement très facile d’exclure du périmètre des données dont un responsable sécurité sera tenté de penser qu’elles ne comptent pas… alors même qu’elles peuvent être essentielles pour l’application de techniques d’intelligence artificielle et d’apprentissage automatique. Tout simplement parce qu’elles apportent du contexte sur ce qui se passe réellement.
Suggérez-vous que l’on demande à l’intelligence artificielle, dans un SIEM par exemple, de conseiller sur le type de données à surveiller ?
Dave Palmer, Darktrace : Je pense que c’est inévitable. Aujourd’hui, c’est un humain qui décide des données devant être collectées. Mais exclure des données, c’est prendre le risque de se priver d’éléments de contexte, tout aussi utiles à des algorithmes d’apprentissage automatique qu’à des analystes humains.
Et généralement, on n’envoie pas toutes les données dans un SIEM, seulement les alertes ou les événements suspects, ce qui peut indiquer une attaque. C’est pourquoi l’apprentissage automatique peut être là mis en difficulté.
Donc, l’avenir est clairement à la mise en place d’assistant à intelligence artificielle, peut-être sur chaque poste de travail ou serveur, capable de prendre de meilleures décisions quant aux données à transmettre au SIEM. Mais aussi peut-être à des approches plus interactives, où la base de données entre les deux demande spontanément plus d’informations autour de tel ou tel événement.
Je pense que c’est la seule manière dont l’intelligence artificielle et l’apprentissage automatique permettront une évolution des approches traditionnelles.
Mais on peut imaginer également d’autres modèles, plus distribués, avec des groupes de machines discutant entre elles et traitant les données directement alors qu’elles transitent au sein du groupe.