adimas - Fotolia
Coronavirus : une agrégation des projets de data science est nécessaire
Pour lutter contre le coronavirus l’intelligence artificielle, et plus largement la data science, est perçue comme une aide précieuse. La multiplication cache un manque de cohésion.
La crise sanitaire en cours donne lieu à une prolifération d’initiatives portées par des éditeurs, des data scientists, des chercheurs, des universités et des médecins. De même, les projets d’information du public, de partage de données, se multiplient. Entre les initiatives bénévoles issues d’associations et les pierres à l’édifice déposées par les éditeurs, difficile de suivre et de coordonner les efforts. Et pourtant c’est le but affiché de la plupart des projets.
Les chatbots se mettent au service des ONG et des gouvernements
Les éditeurs de chatbots mettent à contribution leur savoir-faire pour proposer des agents conversationnels. Ceux-ci doivent informer le public sur la maladie, les mesures prises par le gouvernement, des conseils sur les bons gestes à respecter, de la génération automatique d’attestation dérogatoire ou d’auto-diagnostic.
Par exemple, IBM propose Watson Assistant for citizens, un outil gratuit pour renseigner les collaborateurs des avancées de la maladie. Aux États-Unis, IPSoft a mis au service des citoyens californiens son agent conversationnel disponible depuis des messageries instantanées comme WhatsApp.
Cet attrait pour les chatbots de type FAQ s’observe à l’échelle des départements français. Dans les Alpes-Maritimes, un agent conversationnel nommé Nicole a été mis en place par le conseil départemental. Elle n’a pas l’accent du sud, mais frôle l’uncanny valley dans sa version animée en 3D. Elle tient pourtant son rôle de renseignement sur les mesures prises à l’échelle du département, dans cette période de crise sanitaire.
Ce sont généralement les projets soutenus par les gouvernements et les ONG accessibles depuis les réseaux sociaux les plus populaires, qui rencontrent la démocratisation escomptée.
C’est le cas de CovidBot en France, un projet édité par la startup Clevy qui transmet les résultats de ses auto-diagnostics à l’Institut Pasteur. Très rapidement, cette solution financée par le gouvernement a généré 2 millions de messages pour 220 000 utilisateurs uniques.
Facebook, lui, a directement collaboré avec l’OMS pour concevoir un bot sur Messenger et WhatsApp nommé WHO Health Alert accessible partout dans le monde. Plus de 12 millions de personnes l’ont déjà utilisé. L’UNICEF a, elle, mis en place U-Report, un chatbot disponible via SMS, Facebook, Viber WhatsApp et Telegram. Disponible dans 43 pays, il comptabilisait 5 millions d’interactions avec 2,2 millions de personnes au 30 mars 2020.
Si de manière générale, les éditeurs conçoivent leurs chatbots pour informer le grand public, une initiative s’adresse depuis peu directement aux malades. PlasmaBot est le projet lancé le 8 avril par Microsoft pour recruter des donneurs de plasma sanguin aux États-Unis. En effet, le transfert de plasma sanguin d’une personne guérie du Coronavirus à un malade permettrait de le protéger à son tour. Or il faut six dons pour un patient. L’éditeur propose ainsi un moyen de recruter de nouveaux donneurs. En France le projet de recherche CovidPlasm vise à prouver l’efficacité d’une telle thérapie.
L’Université John Hopkins, championne de l’agrégation de données
Dans d’autres domaines, les éditeurs se sont également portés volontaires et ont multiplié les opérations et des solutions très similaires. Splunk, Tableau, Qlik, SAS, Opendatasoft, IBM Cognos ont proposé des tableaux de bord afin de visualiser l’évolution de la maladie. Or, les chercheurs de l’université John Hopkins, qui s’appuient sur la base de données Time Series ArcGIS d’ESRI, ont rapidement fourni une carte représentant la propagation du virus, dont les données sont mises à jour quotidiennement. De nombreux médias, scientifiques, et organisations s’appuient sur le « service » proposé par le Center for Systems Sience and Engineering (CSSE) de l’Université John Hopkins.
Le CSSE puise ses informations dans plusieurs jeux de données en provenance des gouvernements à travers le monde, dont différentes organisations en Chine et en Asie, aux États-Unis (US Center for Desease Control), en Europe, en Australie ainsi que l’OMS. Par exemple, Etalab a mis en place son propre tableau de bord reposant sur les données des hôpitaux français qui est l’une des sources de choix des chercheurs.
Les actions des éditeurs BI semblent un peu vaines. D’ailleurs, ils s’appuient sur les travaux d’agrégation de données du CSSE pour proposer leurs dashboards en corrélant des sources de données également suivies par le groupe de chercheurs.
En revanche, la capacité à proposer des jeux de données pertinents ou des versions agrégées prend tout son sens. Facebook et l’Université Carnegie Mellon se sont associés pour cartographier les symptômes du Covid-19 à partir de sondages effectués auprès des utilisateurs américains du réseau social.
L’émergence de Data Lakes pré remplis pour les data scientists bénévoles
Snowflake soutient et héberge gratuitement sur son PaaS une base de données proposée par le cabinet en data science Starchema qui doit répertorier toutes les données concernant le nombre de patients, de morts, de patients guéris par pays, état, région, département avec toutes les informations d’horodatage et de géolocalisation associées.
AWS a mis à disposition gratuitement sur sa plateforme d’échange de données AWS Data Exchange, un ensemble de jeux de données fournies par des associations, des éditeurs, des universités, etc. Il a également ouvert, le 8 avril dernier, un data lake permettant d’enregistrer les données via AWS Glue et d’y connecter des outils de requête comme Amazon Kendra, ainsi que de visualisation comme Amazon QuickSight, pour les analyser à l’aide d’Athena, RedShift, EMR, SageMaker et autres.
C3.ai, un éditeur de solutions d’intelligence artificielle suit ce mouvement et propose un data lake rassemblant 11 jeux de données dont celui agrégé par l’Université de John Hopkins, ainsi que les rapports de situation effectués par l’OMS et l’European Centre for Disease Prevention and Control (ECDPC), les données virologiques du centre national américain de biotechnologie, les informations agrégées sur les différentes tentatives de conception de vaccins en cours réalisés par l’Institut Milken, les projets de data science de CORD-19 (porté par Kaggle) et d’autres.
Douze autres data sets rejoindront le lac de données le 15 mai prochain. Ce data lake, lui aussi disponible gratuitement, est associé à la plateforme d’analytique, la C3 AI Suite.
Disponible depuis ce 22 avril, le projet est hébergé par Microsoft Azure, auquel s’est associé C3.ai via son Digital Transformation Institute, pour un appel à participation qui récompensera les équipes par des prix allant de 100 000 à 500 000 dollars (un total de 5,8 millions de dollars). Les participants ont jusqu’au 1er mai pour s’inscrire. Les deux acteurs proposent également des ressources informatiques pour un maximum de 180 chercheurs ainsi qu’un accès au supercalculateur Blue Waters de l’Université de l’Illinois à Urbana Champaign (UIUC).
Des moteurs de recherches pour… la recherche
Les états et les organisations fédérales cherchent à rassembler et proposer leurs propres portails dans le même but. La Commission européenne a lancé et financé le « Covid-19 Data Portal », un portail à l’initiative de plusieurs universités allemandes, danoises et hollandaises. Il s’agit dans ce cas de se concentrer sur la recherche fondamentale en vue de trouver un vaccin. Les jeux de données disponibles comportent des études scientifiques, des données brutes sur les séquences, les protéines, et les structures qui composent le SARS-CoV-2.
Pour suivre les avancées des différentes initiatives bénévoles ou non, l’éditeur français Sinequa a lancé COVID-19 Intelligent Insight, un moteur full text capable de parcourir plus de 70 000 articles scientifiques au sujet de l’épidémie et des précédentes recherches. Il utilise une approche sémantique pour indiquer les traitements, les gènes et les protéines évoquées dans les articles.
IBM propose un accès à sa plateforme Functionnal Genomics qui rassemble les caractéristiques de 22 000 séquences de génomes viraux, dont 5 000 génomes annotés liés au SRAS-CoV-2. Les utilisateurs peuvent rechercher en Python les informations sur les séquences, les protéines, la distribution des gènes, etc.
Quant à Oracle, il a déployé et donné accès à son Therapeutic Learning System au gouvernement américain. Cet outil permet de collecter les données et suivre les avancées d’un essai clinique.
Capacités de calcul : un consortium de « cloudistes » montre la voie
Les fournisseurs de cloud ont principalement annoncé la mise à disposition de capacités de calcul. Le consortium COVID-19 HPC rassemble IBM AWS, AMD, BP, Dell, Google Cloud, HPE, Microsoft et Nvidia, différentes académies américaines, des agences fédérales et des laboratoires nationaux américains. Le consortium soutient 27 projets actifs visant à simuler les effets de certaines molécules et de l’environnement corporel sur le virus afin de trouver les causes et un possible remède. Ensemble, ils ont déjà rassemblé 105 000 nœuds, 3,8 millions de cœurs CPU, 41 000 GPU pour une capacité totale de 418 Petaflops.
De son côté, Oracle a préféré se joindre à une initiative qui existait avant l’apparition du coronavirus : Folding@Home. Ce projet lancé par des chercheurs de l’Université de Stanford (maintenant hébergé par l’Université de Washington) s’appuie sur du crowd computing, pour proposer des capacités de calcul aux chercheurs luttant contre les différentes formes de cancer, Parkinson, la grippe, etc.
Folding@Home a dédié un de ses programmes au Coronavirus. Oracle fournit des serveurs qui permettent de centraliser les résultats issus des calculs effectués depuis les ordinateurs des utilisateurs. Les serveurs en question disposent également d’unités de calcul pour participer directement à la recherche. Avast, Intel, Nvidia, EVGA, AMD et Gigabyte sont quelques-uns des partenaires de Folding@Home.
En matière de simulation, Ansys a mis à contribution ses solutions d’émulation de fluides. Les partenaires de l’éditeur semblent avoir déterminé que la distance de sécurité d’un mètre ne suffirait pas. D’autres étudient les risques liés au non-renouvellement de l’air dans un lieu fermé comme une chambre d’hôpital ou l’efficacité de respirateurs nécessaires aux personnes en réanimation.
D’autres se servent de leur puissance de calcul pour aider la recherche. Deepmind a exploité des bases de données partagées comme GISAID pour proposer des prédictions à partir de modélisations 3D des protéines avec son outil AlphaFold. La filiale de Google précise que ces modèles ne sont pas vérifiés, mais espère aider les scientifiques à comprendre les structures et le comportement du virus.
En Europe, les instituts centralisent les projets de recherche
Sans surprise, la plupart des entreprises mentionnées qui soutiennent la recherche contre le coronavirus sont américaines. Les fournisseurs de cloud ont les ressources informatiques et économiques pour ce faire. Ils donnent de la visibilité à des projets ouverts, mais répondent plus ou moins aux projets des instituts de recherche. Les autres acteurs du marché IT soutiennent en premier lieu les entreprises et les hôpitaux engagés dans la lutte – physique cette fois – contre le virus.
En France et en Europe, ce sont les gouvernements et les instituts de recherche qui indiquent les priorités. Les startups et acteurs de l’IT ont moins de prise sur la recherche, même s’ils ont pu participer aux appels à projet réalisé par l’Agence Nationale de la Recherche (ANR) et ceux de la Commission européenne.
L’ANR a déjà financé 86 projets scientifiques pour un budget de 14,5 millions d’euros. Elle a par exemple retenu DigEpi, la proposition de Benjamin Roche, directeur de recherche à l’Institut de recherche pour le développement. Il veut analyser les réseaux sociaux pour anticiper les comportements lors du déconfinement. Vittoria Colizza, directrice d’une unité à l’Inserm, cherche à modéliser en temps réel les interventions contre la pandémie, notamment à partir des données de téléphonie mobile. Plus ambitieux encore, l’un des participants veut modéliser la portée des porteurs asymptomatiques.
En dehors de la sphère institutionnelle, les projets – qui mêlent data science et CovidIA – visent à anticiper le déconfinement à partir d’un modèle de propagation du virus. Ce projet initié par le professeur Alexandre Mignon et soutenu par la startup Ponicode, rassemble aujourd’hui une quarantaine de bénévoles.
Pour autant les données de mobilité anonymisées manquent. Aux États-Unis, Apple et Google se sont associés pour tracer les utilisateurs de smartphone et mesurer le respect effectif des mesures de distanciation sociale. Google a par exemple publié des données agrégées pour les différentes régions françaises. Apple a fait de même, constatant une forte disparité entre les pays. En France, l’Assemblée nationale et le Sénat doivent trancher sur l’utilisation de telles informations dans le cadre de projets de data science ou de contact tracing (StopCovid).
Il y a donc bien un phénomène de rassemblement des projets, des clusters autour des instituts de recherche. Toutefois, les difficultés sont nombreuses et demandent de modéliser un nombre important d’éléments : le mode de propagation, le taux de contagion, l’importance des patients asymptomatiques, les effets de diverses molécules, des comportements sociologiques, etc.
Il est malheureusement difficile, pour l’instant, de mesurer les résultats de tels travaux. La jeunesse des projets de data science rend perplexes, alors que les biologistes, virologues, médecins travaillent à marche forcée.