ipopba - stock.adobe.com
Coronavirus : les data scientists se mobilisent pour aider les médecins
De nombreux data scientists cherchent à étudier le nouveau coronavirus et trouver des moyens de lutter contre cette pandémie. Voici les principaux projets liés au COVID-19 pour les chercheurs bénévoles.
Alors que le monde est confronté à la pandémie COVID-19, diverses initiatives voient le jour pour exploiter les talents des analystes, des développeurs en IA et des data engineers. Ces initiatives peuvent donner aux individus et aux équipes l’occasion de travailler sur un projet qui a du sens avec d’autres corps de métier et d’acquérir de nouvelles compétences.
« Il ne fait aucun doute que des modèles statistiques et prédictifs doivent être construits pour servir la communauté scientifique, qui travaille dur pour comprendre le virus, l’efficacité des traitements et développer des vaccins », déclare Joshua Swartz, partenaire en transformation numérique chez Kearney, une société de conseil en stratégie et gestion. « Ce que les développeurs peuvent faire, c’est aider la communauté scientifique à effectuer ces analyses et à donner un sens aux résultats ».
De nombreux éditeurs se précipitent pour proposer leurs talents.
David Leichner, directeur général de SQream, un éditeur d’un entrepôt de données SQL basé sur des GPU assure que son entreprise s’appuie sur les efforts bénévoles antérieurs en matière de recherche sur le cancer et l’analyse de l’ADN. Ses équipes cherchent à trouver des corrélations entre divers indicateurs afin de construire un modèle de risque qui tienne compte de la démographie, de la densité des zones urbaines, du tabagisme, etc.
Tiffany Jachja, évangéliste technique chez Harness, l’éditeur d’une solution de livraison continue as-a-service, explique que son employeur a modifié les tâches de ses développeurs afin de concevoir des tableaux de bord pour aider le public à suivre la propagation du coronavirus.
De leur côté, des éditeurs comme Tableau et Kaggle proposent un dashboard pour visualiser l’évolution de la maladie au jour le jour. SAS a conçu un rapport qui détaille de nombreuses statistiques sur le Coronavirus. Splunk a adopté la même approche que Tableau et donne l’accès à une application via GitHub pour recréer la data visualisation. Ce n’est toutefois pas l’objectif premier des data scientists qui cherchent à avoir un véritable impact sur la recherche contre la maladie.
CORD-19, une initiative en réponse à la demande de la maison blanche
Kaggle COVID-19 Open Research Dataset Challenge ou CORD-19 est sans doute l’un des projets les plus importants de rassemblement de données. Il a été lancé à la suite d’un appel à l’action de la Maison Blanche. Il rassemble plusieurs projets et des possibilités de collaboration pour les analystes de données qui souhaitent apporter leur aide.
CORD-19 demande aux participants de résoudre des problématiques scientifiques posées par la pandémie en développant des outils de data mining. Ces outils seront utilisés pour extraire des informations pertinentes depuis diverses sources de données, des milliers d’articles et de rapports scientifiques.
« L’appel a été lancé dans l’espoir que l’IA et d’autres outils puissent être utilisés pour aider à trouver des réponses à un ensemble de questions clés posées par le COVID-19 », affirme Phil Gurbacki, vice-président senior du support produit et client chez DataRobot.
L’ensemble de données brutes rassemble plus de 44 000 articles scientifiques sur divers coronavirus et le séquençage complet de l’ARN du virus. Les chercheurs sont encouragés à contribuer à la résolution de diverses tâches et sous-tâches de haut niveau.
Les tâches de haut niveau comprennent des questions telles que « Que sait-on sur la transmission, l’incubation et la stabilité environnementale ? ». Les sous-tâches nécessitent de répondre à des questions telles que « quelles sont les périodes d’incubation les plus courantes ? », « quelle est la saisonnalité des transmissions » et « quelle est la prévalence de la transmission asymptomatique ? ».
EndCoronavirus rassemble plus de 2 100 volontaires
L’initiative EndCoronavirus a été lancée par le New England Complex Systems Institute (NECSI) et ses collaborateurs dans le but de minimiser l’impact du virus. L’objectif est de fournir des données utiles et des recommandations d’action à mettre en place. Elle a rapidement pris de l’ampleur pour atteindre plus de 2 100 volontaires qui continuent d’affluer.
Les participants ont l’occasion d’affiner leurs compétences en matière d’analyse des réseaux, de modélisation basée sur les agents, d’analyse multi-échelle et d’analyse de complexité.
Stephanie So, fondatrice et CDO de Geeq, une startup spécialisée dans la blockchain, explique que son équipe travaille depuis Slack sur ce projet. Les membres emploient divers outils mathématiques conçus pour des systèmes qui font interagir de nombreux éléments en vue de mettre à l’épreuve les hypothèses issues des statistiques traditionnelles.
Agréger les données, un sacerdoce
D’autres groupes travaillent à la collecte de données qui pourraient être utiles à divers types d’analyse et au développement de nouvelles applications dans le cadre de cette crise.
« La crise du coronavirus a mis en évidence la manière dont différents groupes aux compétences uniques peuvent travailler ensemble de manière distribuée très rapidement », considère Andrew Eye, PDG et cofondateur de ClosedLoop.ai, une plateforme de data science consacrée à la santé.
Andrew Eye rappelle l’importance du travail d’agrégation de données effectuées par Worldometer COVID-19 et l’université de John Hopkins qui rafraîchissent régulièrement des jeux de données et fournissent un tableau de bord disponible depuis GitHub construit avec l’éditeur SIG Esri. Elles sont hébergées gratuitement sur AWS.
Qlik est membre de la Private Sector Roundtable, un regroupement d’entreprises qui travaille avec l’OMS et du Centre américain de contrôle et de prévention des maladies. Ainsi, Qlik a accès à des cliniques, des laboratoires pharmaceutiques, et des fabricants de matériels médicaux dont les informations peuvent être cruciales pour comprendre et combattre la pandémie.
« Nous pouvons apporter les données qui nous permettront d’aborder et d’arrêter la pandémie, puis, à l’avenir, aider à bâtir des systèmes de santé exemplaires », assure Julie Kae directrice de Qlik.org, la division philanthropique de l’éditeur.
Les supercalculateurs fortement mobilisés
Plusieurs laboratoires gouvernementaux et fournisseurs de cloud privé – dont IBM et AWS – mettent leurs HPC à la disposition des analystes de données par le biais du consortium COVID-19 HPC. Les organisateurs mettent à leur disposition plus de 330 pétaflops, 775 000 cœurs de CPU et 34 000 GPU (et ce n’est pas fini).
Ce programme fournit également une assistance technique et des crédits promotionnels sur les services cloud nécessaires à l’exécution de ces workloads. Par exemple, Amazon a offert aux chercheurs travaillant sur des projets à délai de livraison critique l’utilisation de l’AWS, pour accéder instantanément à une capacité d’infrastructure pratiquement illimitée.
Gratuit pour les chercheurs
De nombreux autres éditeurs mettent également leurs outils et ressources à disposition pour les projets COVID-19. TigerGraph, un éditeur de bases de données Graph met gratuitement ses services à disposition de toute personne ou organisation participant à cette lutte.
Par ailleurs, Nvidia met à disposition des chercheurs sa suite logicielle Parabricks dédiée à l’analyse génomique et optimisée pour fonctionner avec ses processeurs graphiques.
DataRobot met à disposition des chercheurs ses produits d’apprentissage automatique et de préparation des données Paxata.
« Les développeurs, les scientifiques et les autres membres de la communauté technique peuvent commencer à s’impliquer dans la lutte contre le coronavirus en profitant de la myriade de plateformes et d’outils mis à la disposition du public », estime Phil Gurbacki.
Le Deep Learning Coronavirus Cure vise à utiliser le Deep Learning pour générer de nouvelles molécules comme candidates à la guérison du nouveau virus. De son côté, OpenCovid19 travaille sur divers outils d’analyse de données et du monde réel pour tester le virus en toute sécurité à l’aide d’outils communs.