Bits and Splits - stock.adobe.co

CovidIA : anticiper le déconfinement en s’appuyant sur la Data Science

Le professeur en médecine Alexandre Mignon, anesthésiste réanimateur à l’hôpital Cochin à Paris, est à l’origine de l’initiative bénévole CovidIA. Celle-ci vise à planifier le retour à la normale, le déconfinement, et à éviter le départ d’une deuxième vague épidémique de coronavirus.

L’initiative CovidIA lancée par le professeur Alexandre Mignon entend s’appuyer sur la data science et les modèles algorithmiques de simulation. Le spécialiste de l’AP-HP s’est entouré de spécialistes dont Sadek Beloucif, professeur de médecine et anesthésiste réanimateur, Patrick Berche professeur émérite de microbiologie, Vincent Maréchal, spécialiste en virologie, Didier Payen et professeur de médecine en anesthésiologie.

La « caution » Data Science est apportée par Patrick Joubert, fondateur et PDG de Ponicode, le dernier membre fondateur de cette initiative.

Ponicode est une jeune startup crée en 2019 dont le but est d’automatiser les tests unitaires pour JavaScript et ses variantes comme TypeScript, ReactJS ou NodeJS avec une application low-code depuis Visual Studio Code. Patrick Joubert était également fondateur et CEO de Recast.AI, une société spécialisée dans la conception de chatbots rachetée par SAP en 2018.

« J’ai rencontré le professeur Alexandre Mignon à l’Executive MBA HEC il y a plus de 15 ans », explique-t-il. « Il connaît très bien mes travaux, il sait ce que je sais faire avec les données. Son objectif est de réunir un conseil scientifique et des experts de la data science afin de modéliser la propagation de la maladie et aider à trouver des stratégies de déconfinement pour l’État français, le système de santé et les entreprises ».

L’initiative CovidIA vise donc à fluidifier le déconfinement, qui selon toute vraisemblance, ne se fera pas du jour au lendemain, mais plutôt par étape. Elle rassemble des startups de data science, dans la publicité, des entreprises établies, de l’apport industriel qui donnent de leur temps ou de l’argent pour explorer les possibilités de la data science en la matière.

Simuler et mesurer les effets du déconfinement 

« Soit l’on prend des décisions de déconfinement qui sont trop timides et dans ce cas-là cela va durer très longtemps, parce que les résultats des mesures prises contre l’épidémie ne se constatent que 15 jours après. Soit les décisions sont trop laxistes et l’on peut se retrouver avec des systèmes de santé à nouveau sous tension », relate Patrick Joubert.

« Si nous arrivons à obtenir un modèle de propagation de la maladie à la maille de la commune et y associer des systèmes de simulation qui prédisent l’évolution de la propagation en fonction de certaines décisions, ce sera très bien ».
Patrick JoubertPDG, Ponicode

« Pour tester tout le monde, il y en a pour un an et demi, on ne va pas attendre jusque-là. […] Si nous arrivons à obtenir un modèle de propagation de la maladie à la maille de la commune et y associer des systèmes de simulation qui prédisent l’évolution de la propagation en fonction de certaines décisions, ce sera très bien », ajoute-t-il.

Pour modéliser la propagation de la maladie, CovidIA veut corréler des données d’épidémiologie, les variables du virus en lui-même, avec les informations comportementales, notamment des données anonymisées, agrégées de déplacement des Français de commune à commune. « Pour les grandes villes comme Paris, il faut être plus précis et agréger les données de déplacement des habitants d’arrondissement à arrondissement », précise le PDG de Ponicode. « Ce sont des zones rouges, des points de passages qui augmentent les possibilités de contagion ».

CovidIA veut ensuite corréler ces informations avec les données médicales (le nombre de cas dans une commune par exemple), les résultats des tests PCR (prélèvement dans le nez à l’aide d’un écouvillon pour tester l’ADN à effectuer les premiers jours de la maladie chez un patient) et les tests sérologiques (pour détecter si une personne a développé des anticorps, signe du contact avec le Covid-19). Toutes ces informations doivent être horodatées afin d’effectuer les simulations de nouveaux cas reposant sur cette cartographie de la propagation.

« Les données historicisées nous permettront de confronter le modèle à la réalité en comparant les avancées du virus sur une période avec les prévisions obtenues par le modèle », prédit Patrick Joubert. « Nous essayons de savoir combien de personnes ont été contaminées pour déterminer le seuil de l’immunité collective ».

Techniquement, CovidIA s’appuie sur une architecture de data science classique : des serveurs, de la puissance de calcul pour entraîner les modèles et le langage Python pour les écrire. Les data scientists impliqués dans l’initiative s’appuient sur du machine learning, mais aussi de l’inférence et la théorie des graphes. « Simuler manuellement à l’échelle nationale la propagation du Covid 19, c’est impossible au vu du volume de données requis. La technologie, pour nous, n’est qu’un moyen de le faire ».

Du temps de l’argent et des données

Afin de constituer un tel modèle, CovidIA est donc dépendante de l’accès aux données. L’initiative peut compter sur le soutien de l’AP-HP pour certaines données médicales, mais devra obtenir l’autorisation des directions régionales de santé pour obtenir les données anonymisées des patients et des tests. En ce qui concerne les informations de déplacement, il s’agit là de données de géolocalisations privées qui doivent être anonymisées.

Cependant, la grande majorité de ces données sont gérées par les opérateurs mobiles sous contrôle de la CNIL. Elles doivent être agrégées et anonymisées par commune, puis l’autorité doit donner son autorisation pour que les responsables de CovidIA puissent les exploiter. « C’est en cours. Nous avons demandé aux fournisseurs l’accès gratuit à ces données agrégées une fois anonymisées et la CNIL doit vérifier que ce ne sont pas des informations personnelles », indique le PDG de Ponicode.

Une alternative serait de créer une application mobile qui demande le consentement de citoyens prêts à partager ses informations de manière anonymisée dans le cadre d’une expérience de crowdsourcing pour faire avancer la recherche sur le Covid-19.

« Nous pensons que quelques centaines de milliers de tests nous permettraient d’obtenir un niveau de précision important. Pour l’instant, une centaine de milliers de dépistages ont été effectués en France. »
Patrick JoubertPDG, Ponicode

Par ailleurs, les initiateurs de ce projet bénévole doivent faire avec l’absence de certaines informations comme les résultats des tests de dépistage. « Nous avons aussi besoin de données scientifiques pour que le modèle de simulation soit avéré. Nous pensons que quelques centaines de milliers de tests nous permettraient d’obtenir un niveau de précision important. Pour l’instant, une centaine de milliers de dépistages ont été effectués en France », indique Patrick Joubert.

Patrick Joubert et les participants au projet CovidIA ne veulent pas faire de fausses promesses parce que l’état de la science évolue très rapidement. À noter que les données épidémiologiques ne sont pas exactement les mêmes entre les pays parce qu’elles sont influencées par un aspect sociologique fort. Par exemple, le taux de contagion est, semble-t-il, plus faible au Japon qu’en France, parce qu’ils sont moins adeptes des embrassades, note le fondateur de Recast.ai.
De plus la problématique des patients asymptomatiques qui ne présentent pas de signes de la maladie pendant plusieurs jours, mais qui peuvent propager le virus complique la modélisation. « Le Covid-19 est un vrai défi pour les médecins, les virologues, les épidémiologistes et pour les data scientists parce qu’il y a énormément de variables à prendre en compte ».

Dans un premier temps, Patrick Joubert et les bénévoles de CovidIA se concentrent sur l’utilisation de données disponibles ouvertement ainsi que les informations démographiques transmises par l’INSEE. « Je suis assez surpris, il y a beaucoup de données de mobilité disponibles. Il y a beaucoup d’applications qui conservent ces informations de manière anonymisée et qui peuvent les partager ouvertement », explique-t-il. Pour autant, « toutes ces données ne sont pas de qualité optimum », prévient le PDG.

« Pour notre première itération, nous démarrons par l’Île-de-France pour des raisons de représentativité et parce que les processus de calcul demandent un certain investissement financier. »
Patrick JoubertPDG, Ponicode

« Pour notre première itération, nous démarrons par l’Île-de-France pour des raisons de représentativité et parce que les processus de calcul demandent un certain investissement financier. Quand nous aurons validé, j’espère la semaine prochaine, une ou deux itérations de modèles, nous pourrons communiquer des travaux préliminaires. Nous avons des premiers indicateurs prometteurs », déclare prudemment Patrick Joubert. CovidIA veut ensuite proposer une nouvelle version à la semaine.

Les sept employés de la startup sont mobilisés après leur journée de travail pour mettre au point les prémices de l’initiative CovidIA. Ponicode n’est pas seule. « Des chercheurs de tout domaine viennent nous aider, des entreprises mécènes veulent participer à un pilote lors du déconfinement ». CovidIA a également de la puissance de calcul nécessaire au déploiement d’un tel modèle de prédilection ainsi que les ressources humaines compétentes. Une deuxième phase du projet demandera sûrement des financements importants, de l’ordre de quelques millions d’euros selon le membre fondateur.

« Je pense que nous sommes en train d’apprendre et j’espère que nous allons pouvoir capitaliser des connaissances pour une éventuelle épidémie demain, après-demain. Il y a aussi un objectif à moyen long terme », conclut Patrick Joubert.

Pour approfondir sur Intelligence Artificielle et Data Science