Biais dans l’IA : une cartographie nécessaire pour tenter de les corriger
La multiplication des algorithmes pose la question des biais. Le responsable scientifique chargé de l’IA de confiance chez Quantmetry décrit la méthodologie du cabinet pour les identifier et tenter de les corriger.
Avec la montée en puissance des pratiques de data science comme l’analytique avancée, le machine learning et le deep learning se pose la question des pratiques éthiques dans les méthodes de traitements automatisées des données. Ces thématiques sont souvent rassemblées sous l’appellation IA de confiance.
« L’IA de confiance repose sur trois piliers qui sont l’intelligibilité des algorithmes, leur robustesse et l’équité », indique Grégoire Martinon, responsable scientifique de l’expertise IA de confiance chez Quantmetry, un cabinet de consultance spécialisé en data science.
L’un des sous-thèmes de l’IA de confiance concerne la lutte contre les biais au sein des applications d’intelligence artificielle.
« Il y a toute une littérature scientifique consacrée aux biais dans l’IA. Les premiers travaux sont assez alarmants, ils mettent en lumière leur omniprésence dans les algorithmes de machine learning », prévient-il.
Avant tout, il faut se pencher sur les possibles occurrences de ces altérations dans un projet de machine learning. Le cabinet a établi une liste de biais, afin de les prendre en compte dès le moment où ses clients esquissent les grandes lignes d’un cas d’usage.
« C’est une liste de biais non exhaustive. Nous les avons sélectionnés parce qu’ils sont très courants dans notre domaine d’activité, chez nos clients ou au cours de nos missions », précise Grégoire Martinon.
Quantmetry estime que l’on retrouve des biais au long du « cycle de vie » d’un modèle ML, c’est-à-dire pendant les trois phases de son développement circulaire : à la préparation des données, à l’entraînement et à l’inférence. « Nous identifions trois types de biais : ceux présents dans les données d’apprentissage, les biais introduits par le modèle au moment de l’apprentissage, et ceux provoqués en réaction à une interaction avec les utilisateurs », liste le responsable. « Il y a des biais à chaque phase d’un projet de machine learning. Il faut donc être vigilant ».
Les biais à la préparation de données
Le biais de sélection se retrouve dans les sondages et dans les scores d’octroi de crédit des banques, par exemple. Quand une banque refuse un crédit à quelqu’un, il y a une censure d’information, car elle s’appuie sur un historique de crédits consentis dans le passé.
Le biais de représentation, sujet très sensible aux États-Unis, renvoie à un manque de diversité au sein d’un jeu de données.
Le biais historique, lui, apparaît quand « le processus métier appliqué jusqu’alors était déjà biaisé cognitivement », commente Grégoire Martinon. « Par exemple, dans la plupart des entreprises les postes à haute responsabilité sont attribués aux hommes. Si l’on automatise ce processus de sélection, l’algorithme reproduira ce biais cognitif ».
Les biais à l’entraînement
Ensuite, l’entraînement des algorithmes comporte son lot de pièges dans lesquels il ne faut pas tomber.
D’abord, le biais d’évaluation correspond à une phase de comparaison à une référence inexacte ou impropre à l’usage dans un contexte donné. Par exemple, le jeu de données MNIST, qui agrège des photographies de chiffres manuscrits, est utilisé pour former des algorithmes de reconnaissance de chèques. « Seulement ce data set est constitué par des Américains qui n’écrivent pas les chiffres comme les 1 et les 7 de la même manière que les Européens », note Grégoire Martinon. « La lecture de chèques sera très bonne aux États-Unis, mais très mauvaise en France, où la typographie n’est pas du tout la même ».
Cela semble être une problématique récurrente dans le traitement d’images par des algorithmes de computer vision. « Un de nos clients avait acquis un système de reconnaissance automatique de plats dans des cantines. Ils ont acheté les services d’une startup asiatique qui le faisait très bien pour des plats asiatiques, mais ne savait pas identifier les mets européens », illustre le responsable.
Le biais d’omission apparaît quand une variable est inconnue de l’algorithme, tandis que le biais d’agrégation dépend d’un problème de méthodologie. « Souvent, certaines populations sont discriminées par un algorithme et passent inaperçues parce qu’elles sont minoritaires. L’effet de moyenne efface la présence des sous-groupes ».
Les biais à l’inférence
Là encore, la manière dont les humains interagissent avec l’algorithme peut influencer ses résultats. En cela, le biais de présentation figure en bonne place. « Le design de l’interface peut biaiser la décision. Si l’UX d’un algorithme d’octroi de crédit est conçu d’une certaine manière, cela peut influencer la prise de décision ».
Le biais social apparaît quand « un utilisateur est influencé par les autres ». « Cela peut être induit par l’algorithme qui affiche des résultats ou un effet de meute purement social, par exemple une vague de commentaires négatifs n’encourage pas à publier une remarque positive ».
Enfin, le biais temporel intervient quand le pattern identifié par l’algorithme ne correspond plus à une forme de réalité. « Le modèle peut apprendre des habitudes de consommation, mais elles peuvent changer dans le temps : c’est typiquement un des impacts de la crise sanitaire », rappelle Grégoire Martinon.
Mesurer l’impact des biais
Pour autant, il ne faut pas s’acharner à chasser une à une toutes ces formes de risques. Quantmetry les évalue à l’aune du cas d’usage et du secteur du client. « Exemple, les systèmes de traitement de texte présentent très souvent des biais sexistes et ethniques parce que l’essentiel des sources de données disponibles sur internet est rédigé par des hommes blancs ».
D’autant que « tous les biais ne sont pas mesurables », selon le responsable. « Vos données sont généralement issues de vos bases clients et il est difficile d’évaluer ce que vous ne connaissez pas », déduit-il. « Par ailleurs, les biais de sélection d’omission ou sociaux sont la plupart du temps involontaires ».
Toutefois, il faut avoir conscience de leur existence. « Il faut interroger la méthodologie. Une fois cela fait, l’on ne mesure pas les biais, mais leur impact, leurs effets discriminants », insiste Grégoire Martinon.
Il faut alors se poser des questions dont les réponses peuvent être binaires. « Votre modèle d’octroi de crédit favorise-t-il plus souvent les hommes que les femmes ? Est-ce que votre algorithme de détection de fraudes identifie plus facilement une population qu’une autre ? Nous n’allons pas toujours pouvoir expliquer ces résultats, mais cela permet de déterminer l’impact », selon notre interlocuteur.
Pour mesurer ces effets, les data scientists de Quantmetry s’appuient sur deux méthodes. La première mesure les performances de l’algorithme sur des données labélisées à la phase de validation après l’entraînement. Pour cela, comme la grande majorité des data scientists, les collaborateurs du cabinet s’épaulent sur la matrice de confusion. « Il s’agit d’une mesure classique : l’on compte les faux positifs et les faux négatifs. Pour évaluer des effets discriminants sur des sous-populations, nous allons réaliser des matrices de confusion par groupe, par exemple entre les femmes et les hommes afin de constater si oui ou non les performances sont les mêmes, quel que soit le groupe », explique Grégoire Martinon. « Ce n’est pas parfait, car cela fait l’hypothèse que nos labels correspondent à une vérité immuable [la notion de Ground Truth N.D.L.R], mais ce n’est pas toujours le cas », ajoute-t-il.
Grégoire MartinonResponsable scientifique de l’expertise IA de confiance, Quantmetry
La deuxième méthode concerne davantage des algorithmes d’aide à la décision. « Nous allons alors plutôt nous demander si le sens que l’on peut attribuer à la prédiction est le même pour un groupe ou un autre », avance le responsable. « En reprenant notre exemple d’octroi de crédit, l’algorithme va donner un score d’attribution sur une échelle de zéro à un. Si le résultat est 0,8, nous nous posons alors la question de savoir si ce score correspond au même risque pour un homme ou une femme ». Il s’agit de la propriété de calibration. « Il s’agit d’une correspondance biunivoque entre le score et le niveau de risque. Nous nous attendons à ce qu’un algorithme évalue le même niveau de risque pour les populations, ce qui n’est pas toujours le cas ». Il faut alors revoir l’algorithme afin d’obtenir cette équité.
Seulement, les deux types d’indicateurs, performance et calibration sont incompatibles entre eux. « C’est mathématique : l’on ne peut pas avoir simultanément un algorithme performant et calibré de la même manière sur tous les groupes. C’est soit l’un, soit l’autre », tranche Grégoire Martinon. Dès lors, le critère de performance est privilégié pour les algorithmes de décision automatique, par exemple pour réaliser des campagnes de publicité sur des segments de population. Celui de calibration concerne l’aide à la décision. « Si votre algorithme apporte une couche supplémentaire d’information dans un processus bureaucratique humain avec plusieurs acteurs, alors c’est le critère de calibration qui prime », théorise le responsable.
Des corrections possibles…
Il existe tout de même des méthodes pour corriger les biais. Là encore, Quantmetry établit trois types de correction. La première intervient au « prétraitement », à la préparation de données. « Nous essayons de réparer le jeu de données en suréchantillonnant les données relatives à une population discriminée pour leur donner plus de poids. Nous pouvons supprimer des variables sensibles ». Mais supprimer des données peut introduire de nouveaux biais. « Historiquement, les hommes sont mieux payés que les femmes et les critères de sélection des recruteurs sont plus durs pour cette population féminine. L’on peut décider d’empêcher un algorithme de recrutement d’utiliser la variable sexe, mais cela ne corrigera pas forcément le biais : l’algorithme va comprendre qu’il faut favoriser les hauts salaires et introduit un nouveau biais. Il compense l’absence de la variable sexe avec une autre très corrélée à cette première ».
Puis, il a des processus de réduction de dimension dans un espace orthogonal aux variables sensibles. « C’est un espace où je ne peux pas distinguer les populations », affirme Grégoire Martinon.
La deuxième méthode consiste à traiter l’algorithme lui-même. Souvent, les entreprises emploient des algorithmes préentraînés concoctés par de grands groupes ou des instituts de recherche. À ce stade, il convient de modifier le code, plus particulièrement leurs fonctions de coût. Une fonction de coût permet de quantifier l’éloignement de la réponse réelle par rapport à la prédiction du modèle, avec l’objectif de l’optimiser afin qu’elle soit la plus faible possible. « Actuellement, les fonctions de coût sont optimisées pour obtenir de bonnes performances et ne s’intéressent pas à l’éthique », note le responsable chez Quantmetry. « En l’occurrence, il s’agit de modifier la fonction de coût qui va l’obliger à prendre en compte une métrique d’équité dans son apprentissage en maximisant performance et éthique ».
La troisième méthode s’applique après le traitement. Elle correspond à une forme de discrimination positive. « Si un algorithme de recrutement compare les compétences de deux composants de sexe opposé, il peut rencontrer une incertitude. S’il y a un biais, c’est généralement à ce moment-là qu’il intervient. Suivant ce dernier, nous employons la correction nécessaire », déclare notre interlocuteur.
… aux lourds inconvénients
Chaque fois, ces interventions ont des avantages et des inconvénients. « Le bénéfice de la rectification au prétraitement, c’est qu’elle ne modifie ni l’algorithme ni le processus de décision. L’écueil – et il est prépondérant en Europe – c’est qu’il faut avoir accès à la variable sensible. Si cette variable est le genre, nous pouvons encore travailler. Si ce paramètre correspond à l’ethnie, c’est très difficile de corriger le biais, car les statistiques ethniques en France sont très fermement encadrées », affirme Grégoire Martinon. De même, les données protégées par le RGPD comme la religion ou les opinions politiques ne peuvent pas être soumises à ce type de correction.
Les révisions effectuées au moment de l’entraînement, elles, permettent de « combattre le problème à la racine. Malheureusement, c’est très complexe à mettre en œuvre et le commun des mortels chez les data scientists ne sait pas forcément le faire ». En l’occurrence, cela reviendrait à modifier le code source d’algorithmes très puissants comme BERT ou RESNET-50, un exercice davantage à la portée de chercheurs. « Ce n’est pas sur la feuille de route des GAFAM ou des organismes de chercheurs tel l’INRIA, qui s’occupe de scikit-learn, de faire des algorithmes éthiques », rappelle le responsable scientifique.
Grégoire MartinonQuantmetry
Selon Grégoire Martinon, IBM fait partie des pionniers en la matière avec sa librairie AI Fairness 360, confiée à la fondation Linux l’année dernière. « Cette librairie est malheureusement peu adoptée à l’heure actuelle par rapport aux autres frameworks répandus en data science ».
La méthode de correction post-traitement est relativement agnostique : il n’y a pas obligation de modifier les données ou l’algorithme. « C’est souvent le procédé recommandé aux États-Unis pour réfuter la qualité d’un jugement effectuée à l’aide d’une application d’IA. Cela ne coûte pas cher ». Mais là encore, il faut accéder à la variable sensible. « Si vous souhaitez rectifier un biais ethnique en Europe, aucune des trois démarches ne peut être employée sans l’information sur l’origine de la personne ».
Après avoir cartographié les biais et les techniques pour tenter d’atténuer leurs impacts, Grégoire Martinon assure qu’il y a des outils scientifiques, « mais qu’il ne suffit pas de les actionner pour résoudre le souci ». « La meilleure d’approche consiste à obtenir une vision à 360 degrés de sa problématique et donc plutôt se pencher sur l’intelligibilité des algorithmes, leur explicabilité », conclut-il.
Pour approfondir sur Intelligence Artificielle et Data Science
-
GenAI : les entreprises françaises partagées entre enthousiasme, prudence et attentisme (études)
-
Les biais du recrutement augmenté à l’IA : ce qu’il faut savoir
-
Formations, DSI, Data Governance : les freins à l’adoption de l’IA en entreprise
-
IA frugale : trois règles « simples » pour optimiser les algorithmes