L’IA contre la COVID-19 : Facebook AI Research entre dans la danse
Afin de prédire la détérioration de l’état des patients atteints de la COVID-19, Facebook AI Research met à contribution ses derniers travaux consacrés à l’apprentissage non supervisé. Les trois modèles IA feraient mieux que leurs concurrents, et le laboratoire entend le faire savoir en les rendant open source.
Dans le cadre de son partenariat avec le département de radiologie du centre hospitalier universitaire NYU Langone Health, Facebook AI Research a publié ses travaux consacrés à l’analyse des radiographies de poumons de patients atteints de la COVID. Les data scientists de Facebook ont élaboré trois modèles de machine learning.
Le premier doit aider à prédire l’évolution de l’état d’un patient à partir d’une seule radiographie pulmonaire. Le deuxième s’appuie sur une séquence d’images radiographiques pour obtenir le même résultat. Enfin, le troisième a pour but de pronostiquer le volume d’oxygène supplémentaire dont un patient a besoin après une seule radiographie.
Les modèles ont des applications pratiques : ils visent à planifier les opérations au sein des hôpitaux (transfert de patients, passage en réanimation, évaluation du nombre de lits disponibles, consommation de l’oxygène, etc.) et si possible empêcher le décès des patients.
Les chercheurs ont dû faire face à un problème de taille : l’accès aux données de radiographie pulmonaire reste limité. Selon les auteurs de l’article scientifique, les collections d’imageries médicales correctement étiquetées ne sont pas nombreuses, car chères à entretenir. Par ailleurs, l’étiquetage concerne quelques pathologies, alors que le SARS Cov2 est un virus découvert récemment. Il ne faut pas oublier que dans de multiples pays les examens radiologiques sont considérés comme confidentiels.
Du même coup, les jeux de données consacrés aux radiographies pulmonaires des patients atteints de la COVID sont pour la plupart de taille réduite. Or, les performances des algorithmes supervisés généralement utilisés pour ce type de tâche dépendent du volume de données et des labels (étiquettes). Dans ce cas-là, il est possible d’appliquer une méthode de transfert d’apprentissage après un préentraînement sur un gros dataset, puis d’affiner les résultats suivant la tâche à accomplir. Cependant, les auteurs de l’article considèrent que cette méthode « peut mener à de mauvaises performances si les tâches sont trop différentes, le modèle ne sera pas capable d’apprendre les features nécessaires au transfert lors de cette étape de préentrainement ».
De l’apprentissage non supervisé pour faire mieux que le transfer learning
Afin de bâtir leurs modèles, les chercheurs de Facebook AI ont employé des jeux de données publiques, MIMIC-CXR-JPG (377 110 images de radiographie de la poitrine) et CheXpert (224 316 images pulmonaires de 65 240 patients). Seulement, ils ne se sont pas intéressés aux étiquettes et donc aux résultats des travaux des créateurs de ces deux collections d’images, qui ne contiennent pas de données relatives à la COVID.
Au lieu de cela, ils ont appliqué une technique d’apprentissage non supervisé maison nommée Momentum Contrast (MoCo) appliquée à des réseaux de neurones. Ce modèle recourt à une fonction de perte contrastive pour faire correspondre dans un espace latent les images similaires « avec des vecteurs proches des uns des autres, et des images dissemblables avec des vecteurs éloignés des uns des autres ». Ces vecteurs peuvent ensuite servir de représentations des features pour entraîner un classificateur avec un data set comportant peu de données étiquetées. Habituellement, l’usage de la fonction de perte contrastive réclame de gros volumes d’informations, mais les chercheurs notent que MoCo permet de contourner cette obligation.
Et c’est justement l’intérêt de cette technique dans ce cas particulier. Les chercheurs ont utilisé un troisième jeu de données comprenant 26 838 radiographies pulmonaires de 4 914 patients atteints de la COVID-19. Les scientifiques du NYU Langone Health ont étiqueté les données pour représenter la détérioration de l’état d’un patient d’après trois événements : leur transfert en soin intensif, leur intubation ou leur décès. Suivant le moment où la radiographie a été effectuée, les annotations décrivent l’état des patients après 24, 48, 72 et 96 heures. Pour l’algorithme de prédiction de besoin en oxygène, la même méthodologie a été appliquée afin de constater les effets de cet apport d’air artificiel.
Des « solutions de recherche » exploitable en condition réelle
Selon les tests réalisés avec des radiologues, le modèle multi-image serait plus précis qu’un expert humain pour prédire la détérioration de l’état d’un patient dans un délai de 96 heures (4 jours). « Nous avons pu montrer qu’avec l’utilisation de cet algorithme d’IA, les radiographies pulmonaires en série peuvent prédire la nécessité d’une intensification des soins chez les patients atteints de COVID-19 », déclare le docteur William Moore, professeur de radiologie à NYU Langone Health dans un communiqué de presse. « Comme le COVID-19 reste un problème majeur de santé publique, cette capacité de prédiction – sera essentielle pour les hôpitaux ».
William MooreProfesseur de radiologie, CHU NYU Langone Health
Les chercheurs de Facebook AI n’ont pas seulement publié un article pour commenter leurs travaux, ils ont également rendu disponible les modèles en open source (sous licence MIT) depuis GitHub. Ces algorithmes sont préentraînés, c’est-à-dire que les hôpitaux, les centres de recherche publics ou privés peuvent les exploiter à partir de leurs propres jeux de données d’imagerie médicale. De plus, la filiale du géant des réseaux sociaux a fait en sorte que les modèles, après une opération de fine-tuning, puissent être déployés sur une machine (ordinateur ou serveur) dotée d’un unique GPU.
« Ces modèles ne sont pas des produits, mais plutôt des solutions de recherche, destinées à aider les hôpitaux dans les jours et les mois à venir afin de planifier les ressources », préviennent les porte-parole de Facebook AI Research dans le même communiqué.
En effet, le laboratoire d’IA est bien conscient des remarques quant à la faible efficacité des modèles ML proposés pour lutter contre le COVID, pointés par une métaétude. Les chercheurs espèrent avoir fait preuve de rigueur pour éviter certains biais, par la sélection de ces data sets en entrée et de ces échantillons de données.