Blue Hexagon mise sur l’apprentissage profond pour détecter les menaces dans le réseau
La jeune pousse applique le deep learning à la détection de menaces dans le trafic réseau. Mais certains experts sont réservés quant au réel potentiel de l’approche.
Pour John Petersen, DSI d’Heffernan Insurance Brokers, les systèmes de sécurité traditionnels, ne suffisent pas à effectivement protéger le système d’information des entreprises des menaces actuelles. Il porte un regard sévère sur les systèmes de protection des hôtes, estimant qu’ils n’offrent plus la sécurité attendue : « on ne peut pas sécuriser chaque hôte du réseau ; il faut quelque chose pour surveiller le réseau ». D’où sa quête d’une solution permettant de « superviser le réseau et d’apprendre et identifier les attaques inédites lorsqu’elles surviennent ».
C'est ce qui l'a amené à déployer la plateforme de sécurité réseau de Blue Hexagon, qui s’est montrée en mesure de détecter une contamination par Emotet dès qu'elle a atteint l’un des serveurs de Heffernan Insurance Brokers : « Blue Hexagon a été en mesure de le trouver immédiatement et de nous alerter, ce qui nous a permis de mettre ce serveur hors ligne ». Et d’estimer disposer aujourd’hui d’une visibilité inédite sur son réseau.
Nayeem Islam, un ancien directeur de la recherche et du développement de Qualcomm, est directeur général et cofondateur de Blue Hexagon. Pour lui, l’avenir de la sécurité est à chercher du côté de la défense automatique contre les menaces. Et pour cela, selon lui, l'apprentissage profond et les réseaux neuronaux comptent parmi les techniques les plus avancées pouvant être utilisées pour aider à défendre un système d’information : « nous avons réalisé que l'apprentissage profond avait un impact significatif sur la reconnaissance photographique et vocale. Mais ces techniques n'étaient pas beaucoup utilisées dans le domaine de la sécurité informatique ».
Fondé en 2017, Blue Hexagone est sorti de l’ombre en début d’année, venant concurrencer d’autres entreprises mettant à profit des technologies d’intelligence artificielle pour détecter les menaces sur le réseau, à l’instar de Darktrace, Vectra Networks, BluVector, ou encore Awake Security.
Pour Nayeem Islam, « l'automatisation qu'apporte l'apprentissage profond réduit la quantité d'intervention humaine nécessaire pour détecter les menaces. Les entreprises ont une infrastructure réseau ; nous nous positionnons derrière les défenses traditionnelles et fournissons une couche de défense supplémentaire ».
La plateforme de Blue Hexagon se concentre sur l’analyse du trafic réseau. Elle confronte ce trafic à des modèles établis par apprentissage profond. La détection d’une menace peut intervenir en moins d’une second, assure la jeune pousse. Les mécanismes de défense peuvent alors être activés pour la confiner. Nayeem Islam explique que « nous entraînons nos modèles d'apprentissage profond à l'aide d'un ensemble très diversifié de données sur les menaces, dans le cloud, sur l’infrastructure d’AWS ».
L’IA, alliée de la cybersécurité, mais pas super-héros
L'apprentissage profond constitue en effet une technique intéressante qui peut être appliquée à de nombreux cas d’usage en sécurité informatique, estime Augusto Barros, analyste au sein du cabinet Gartner. Mais pour lui, s’il faut comprendre ce qu’il peut faire, il faut surtout comprendre ce qu’il ne peut pas faire : « de nombreuses applications d'apprentissage machine, y compris celles qui utilisent l'apprentissage profond, peuvent trouver des menaces, comme de nouveaux logiciels malveillants, par exemple, présentant des caractéristiques communes avec ce que nous connaissons déjà sous le nom de logiciels malveillants ».
Mais tout dépend de la qualité de l’entraînement initial des modèles : « nous devons d'abord les alimenter avec ce que nous appelons les logiciels malveillants et aussi avec ce que nous appelons les logiciels non malveillants pour qu'ils puissent apprendre. Les nouveaux types de menaces ne seront pas identifiés par magie grâce à l'apprentissage automatique ».
Et d’illustrer son propos en soulignant que « lorsque ce que nous appelons des attaques sans fichiers ont commencé à apparaître, les outils d'analyse de fichiers basés sur l'apprentissage automatique n'ont pas été en mesure de les détecter. Ils regardaient juste au mauvais endroit. Et qui leur dit où ils devraient chercher ? Des humains ».
Réservé, Augusto Barros doute qu'un système basé sur l'apprentissage automatique soit plus rapide qu'un autre basé sur des signatures. Et pour lui, en matière de prévention, il est important de s'assurer de ce qui est détecté avant de décider d'intervenir : « les signatures passent à côté des menaces inconnues, mais elles sont très sûres de ce que nous savons. Avec l'apprentissage automatique, vous n'obtiendrez qu'un pourcentage de certitude. Utiliser cette base pour une intervention peut être problématique, avec des risques sur la disponibilité des systèmes ».
En outre, la complexité des réseaux d'entreprises rend difficile l’entraînement d'algorithmes pour distinguer le bon du mauvais, estime Anton Chuvakin, également analyste chez Gartner : « la diversité de ce qui est normal, de ce qui est légitime, de ce qui est réellement acceptable pour les entreprises est si vaste que l'apprentissage peut être vraiment difficile ».
Lorsqu'il s'agit de domaines de la sécurité tels que la détection de maliciels, l'apprentissage profond fonctionne parce qu'il existe un assez grand gisement de données sur les logiciels légitimes et les logiciels malveillants qui peut être utilisé pour l’entraînement des modèles. Mais pour Anton Chuvakin, « avec le trafic réseau, cela a beaucoup moins de chances de fonctionner ».
Car pour vraiment réussir l'apprentissage profond dans le domaine de la cybersécurité, il faut un très grand volume de données étiquetées. Et justement, « il a fallu des années à certains éditeurs pour accumuler des données sur les maliciels. Où sont les données équivalentes pour le trafic ? Personne n'a collecté de trafic malveillant à grande échelle depuis de nombreuses années, donc il n'y a aucun moyen de pointer vers un référentiel sur lequel entraîner les modèles ».