IA : comment lutter contre les biais dans les données d’entraînement
Bien que le biais des données puisse sembler être un problème de back-end, les données faussées peuvent faire dérailler un modèle et avoir de lourdes répercussions sur l’entreprise.
L’éthique dans la mise en œuvre de l’IA est une priorité absolue pour les chefs d’entreprise, mais étant donné tout le battage médiatique autour de ce domaine, il est facile pour les non-data scientists de se concentrer sur les opportunités sans réfléchir suffisamment aux risques qu’elles comportent. Alors que l’utilisation de l’IA continue à progresser, les organisations doivent changer d’orientation pour garantir des résultats fiables et déontologiques.
Les sociétés deviennent de plus en plus responsables de la réduction des risques dans leurs logiciels – ou dans leur propre développement. Les biais au sein des données employées pour entraîner et inférer des modèles de machine learning sont l’un des principaux moteurs des discussions sur l’IA, car la présence de dérives dans les systèmes d’IA a un impact négatif sur les consommateurs, les clients et les marques.
Il n’a jamais été aussi opportun de se pencher sur ce problème d’éthique dont les implications sont bien réelles.
Les types de biais
En intelligence artificielle, les biais prennent de nombreuses formes. Certains sont des biais cognitifs humains et d’autres proviennent des données. Certains des phénomènes les plus courants ne s’excluent pas nécessairement les uns les autres : les entreprises doivent examiner attentivement les biais internes et externes dans leurs jeux de données ainsi que dans leurs applications.
- Le biais de confirmation est un biais cognitif humain. Il consiste à sélectionner et à analyser les données de manière à refléter un point de vue préexistant.
- La variable confondante, un facteur aléatoire, influence à la fois les variables dépendantes et les variables explicatives. Il s’agit essentiellement d’un élément ayant un impact sur le résultat qui n’a pas été pris en compte. En l’occurrence, cette notion engendre la différenciation entre corrélation et causalité.
- Le surajustement (ou surapprentissage) résulte d’une analyse qui est trop étroitement liée à un ensemble de données spécifiques. Exemple classique, un modèle prédictif peut fonctionner correctement sur les données initiales d’entraînement, mais son niveau de précision diminue lorsque de nouvelles données sont introduites.
- Le biais d’échantillon est un échantillon qui ne représente pas la population qu’il est censé dépeindre.
- Le biais de sélection correspond au fait de sélectionner des données pour l’analyse ou de choisir par inadvertance un échantillon non représentatif (ce qui est plus probable).
- Le paradoxe de Simpson se produit lorsqu’une tendance disparaît ou s’inverse à différents niveaux d’agrégation. Par exemple, une tendance peut être présente lorsque plusieurs groupes sont étudiés séparément, mais la tendance peut ne pas exister ou peut être le contraire lorsque les groupes sont combinés et analysés comme une seule population.
- L’asymétrie est une distribution de probabilité inégale qui peut être causée par des valeurs aberrantes, mais plus souvent par des valeurs surreprésentées.
Le biais des données influence les initiatives des entreprises
Bien que le biais des données puisse sembler être un problème de fond, les implications pour l’entreprise employant ou développant un logiciel d’IA dépendant de données biaisées sont bien réelles. Ces systèmes mal paramétrés peuvent faire dérailler les initiatives de diversité et de recrutement, réduire le retour sur investissement et créer la méfiance des consommateurs.
Ce que l’on appelle aujourd’hui le « problème de l’homme blanc », c’est-à-dire les biais inhérents aux données qui sont dus aux développeurs et aux entraînements, a pris plusieurs formes.
Dan SimionVP, Capgemini Amérique du Nord
Certains algorithmes de détection de visages provoquent des discriminations ethniques ou raciales, d’autres modèles infèrent des généralisations inutiles. Dans les applications destinées aux consommateurs, ces biais entraînent une déréglementation, des généralisations abusives, des analyses prédictives incorrectes et des préjugés financiers.
« L’un des principaux problèmes liés aux préjugés provient de la collecte des données : comment vais-je collecter les données, quelles sources de données sont utilisées, quelle est la taille de l’échantillon, si l’échantillon est représentatif ou non », déclare Dan Simion, vice-président de Capgemini North America pour l’intelligence artificielle et l’analytique. « Ce sont les principales raisons pour lesquelles vos données sont faussées ».
John Frownfelter, responsable de l’information médicale de Jvion, une entreprise spécialisée dans l’IA appliquée à la santé, a déclaré que les conclusions tirées d’une étude sur la pression artérielle des vétérans blancs de sexe masculin ont été généralisées à d’autres populations, y compris les femmes et les personnes de couleur, et appliquées aux décisions médicales. Ces données faussées ont eu une influence négative sur leurs connaissances des patients.
« L’une des formes les plus courantes de biais que nous essayons d’éliminer aujourd’hui concerne le mauvais ciblage de la population. Je pense que c’est assez bien compris et atténué, mais il se peut que vous ayez encore des angles morts et que vous ne sachiez pas où les trouver », estime John Frownfelter.
Voici un autre exemple plus courant de ce phénomène dans lequel les analystes concluraient qu’une population aisée est en meilleure santé qu’une population pauvre, simplement parce qu’il y a plus de données disponibles sur les patients qui peuvent acheter un traitement médical. Parfois, des données telles que les informations personnelles identifiables (IPI) sont omises d’une analyse par la loi ou pour réduire un risque. Cependant, il est possible de déduire les mêmes informations en utilisant d’autres données.
« Quand vous combinez [avec un algorithme] des informations relatives à des personnes et des problèmes commerciaux, il faut vous poser les bonnes questions : quelles sont les implications de cet algorithme ? Comment va-t-il être utilisé ? », indique Mérédith Butterfield, principal data scientist au sein de la société de conseil en data science Valkyrie.
S’attaquer au problème de la partialité des données
Les préjugés doivent être identifiés avant de pouvoir être traités. L’on peut observer si un résultat a un impact disproportionné sur un ou plusieurs sous-ensembles d’une population. Une autre méthode consiste à évaluer les biais historiques d’une organisation afin de comprendre comment ils se reflètent dans les données. Il est également possible d’utiliser une IA de supervision pour identifier les zones potentielles de biais.
scott ZoldiDirecteur de l'analytique, FICO
Cependant, même si les biais ont été éliminés, les modèles doivent être surveillés en permanence pour détecter toute dérive.
« Nous devons continuellement surveiller si un modèle dévie plus ou moins au fil du temps et nous ne pouvons le faire que si nous comprenons les relations que le modèle apprend. Au moment de la construction d’un modèle, nous nous assurons qu’il n’est pas biaisé en faveur d’une classe particulière pour laquelle il ne devrait pas montrer de préjugés », assure Scott Zoldi, directeur de l’analytique chez l’éditeur FICO. « Et en production, nous continuons à surveiller les caractéristiques latentes pour nous assurer que les données ne sont pas biaisées vers une classe protégée ».
Dans le cadre de cette surveillance, FICO fixe de manière proactive des seuils afin que, lorsque les distributions changent, il soit clair qu’un modèle ne doit pas être utilisé pour tous les clients ou un sous-ensemble de cette population.
Meredith Butterfield estime que si elle construisait un modèle prédisant le succès des entreprises dont le PDG n’est pas un homme blanc, elle pourrait examiner comment l’algorithme se comporte de manière comparable pour les PDG masculins et féminins ainsi que pour les personnes de couleur. Si le modèle fonctionne différemment pour les différents groupes, alors il y a probablement un biais dans le modèle, donc soit le modèle doit être modifié, soit il faut analyser chaque groupe séparément.
L’IA éthique : des principes à la pratique
De plus en plus d’organisations ont formulé des principes et des valeurs éthiques en matière d’IA dans le but de mettre en œuvre une « IA digne de confiance » ou une « IA responsable », mais certaines d’entre elles éprouvent des difficultés à traduire ces concepts en cahier des charges pratique. L’équité et l’explicabilité sont au cœur de chaque réflexion sur l’IA, mais ces mots à la mode deviennent ambivalents lorsque les data scientists et les data engineers doivent utiliser un système de type « boîte noire ».
« Nous prenons en compte les trois “E” : l’IA explicable, pour que j’appréhende ce qui motive mon modèle, l’IA éthique, qui comprend les caractéristiques éthiques et impartiales, et l’IA efficiente, qui permet de remédier ou de travailler avec le modèle dans un environnement changeant », liste Scott Zoldi.
De même, lorsque Capgemini construit des modèles, ceux-ci sont conçus et formés pour garantir un traitement équitable de tous les groupes de clients. Selon Dan Simion, Capgemini estime également que la traçabilité est importante pour que les algorithmes puissent être contrôlés d’un point de vue éthique et que l’organisation puisse s’assurer que les résultats sont fiables.
« Je pense qu’il y a un long chemin à parcourir, car les entreprises doivent faire beaucoup plus de travail pour expliquer l’IA et ne pas la considérer comme quelque chose de magique ou une boîte noire », conclut-il.