DigitalGenetics - stock.adobe.co

COVID-19 : le rôle essentiel de l’IT dans son séquençage

Un consortium britannique d’universités et d’institutions a rapidement exploité des jeux de données, l’analytique et le cloud computing pour séquencer le Sars-Cov-2, le virus à l’origine de la Covid-19.

La génomique ou l’étude des gènes est un champ de la biologie qui repose sur le calcul intensif. Si la faculté de séquencer, ou de lire, le génome humain a beaucoup attiré l’attention, dans l’ombre, les mêmes techniques servent à repérer et analyser les maladies. Leur application au Sars-Cov-2, le virus à l’origine de la Covid-19, les a mis sur le devant de la scène en 2020.

Au Royaume-Uni, cette recherche s’est déroulée au sein du Covid-19 Genomics UK Consortium (Cog-UK), qui comptait 428 056 échantillons séquencés au 12 avril 2021. Les données du référentiel mondial Gis-Aid semblent indiquer que seuls les États-Unis s’approchent de ce volume. Dans le New York Times, Emma Hodcroft, épidémiologiste moléculaire de l’université de Berne en Suisse, a comparé le travail de séquençage du Royaume-Uni à un exploit digne de l’aventure spatiale.

Grâce au séquençage de leur génome, l’on peut suivre les mutations des virus à mesure qu’ils se reproduisent et adapter les stratégies publiques en conséquence. Le variant B117 du Sars-Cov-2, plus transmissible que les souches antérieures, a été séquencé pour la première fois en septembre 2020 et formellement reconnu comme un « variant préoccupant » par la santé publique britannique en décembre, entraînant immédiatement un confinement. Il est souvent appelé variant du Kent en Grande-Bretagne et variant anglais ou britannique dans le reste du monde.

Aux origines du consortium Cog-UK

Rapidement mis sur pied, le consortium Cog-UK s’appuie sur les technologies et l’expertise développées au fil des ans. À la demande de Patrick Vallance, principal conseiller scientifique du gouvernement britannique, et après quelques échanges par mail et par téléphone, une vingtaine de personnes se sont retrouvées au siège londonien du Wellcome Trust le 11 mars 2020. « Le cadre et les objectifs de Cog-UK ont été dans l’ensemble négociés dès cette première réunion », précise Sharon Peacock, professeur en santé publique et en microbiologie à l’université de Cambridge et directrice de Cog-UK.

Avant cela, le plus grand ensemble de données virales génomiques concernait l’épidémie d’Ebola s’étant déroulée en 2014 et 2016 en Afrique de l’Ouest. Ce jeu de données contenait environ 1 500 échantillons. « Cog-UK a dépassé ce nombre en moins d’un mois et a fait passer la surveillance du génome viral à une échelle jamais vue jusqu’alors », poursuit Sharon Peacock. Le projet a pu être lancé le 23 mars 2020 grâce au financement du gouvernement britannique à hauteur de 20 millions de livres.

« Cog-UK a fait passer la surveillance du génome viral à une échelle jamais vue jusqu'alors ».
Sharon PeacockProfesseur, Université de Cambridge

Sharon Peacock décrit Cog-UK comme un « regroupement de bonnes volontés », notamment les pouvoirs publics britanniques, quatre agences de santé publique du pays et plusieurs organisations des secteurs universitaires, de la médecine et de la santé publique. Répartis en 16 pôles, les membres séquencent des échantillons positifs de patients atteints de la Covid-19 sous la houlette du Wellcome Sanger Institute dans la région de Cambridge, connu pour figurer parmi les instigateurs du premier séquençage du génome humain il y a vingt ans.

Fort de son expérience de la génomique du paludisme, l’institut a mis en place un pipeline largement automatisé pour le Sars-Cov-2 avec des formats de fichiers normalisés, des tests de contrôle de qualité et le retrait des parties dont le séquençage est inutile.

Il dispose de son propre datacenter, un cloud privé flexible aux ressources de calcul et de stockage hautes performances.

Peter Clapham, responsable du groupe d’assistance HPC, explique qu’une grande partie du travail à l’institut concerne de gros projets. Parmi eux, citons UK Biobank, qui suit les données de santé et génétiques de 500 000 personnes, et Tree of Life qui vise à séquencer l’ADN de l’ensemble des 70 000 organismes eucaryotes des îles britanniques.

« Avec nos décideurs informatiques, nous avons conçu dès le départ un système flexible et évolutif, » affirme Peter Clapham. Dans le cadre du consortium Cog-UK, il s’agissait de réorienter les usages de l’infrastructure technique plutôt que de se procurer de nouveaux équipements. « Nous avons ainsi pu valider la nature hybride de nos installations et la flexibilité de nos systèmes dans la durée, » précise-t-il.

Infrastructure en cloud privé

Si le séquençage en lui-même est distribué, il fallait au consortium une plateforme Big Data pour y héberger les données produites et les analyser. Thomas Connor, professeur en biosciences à l’université de Cardiff, accompagné de son collègue Nick Loman, professeur en génomique microbienne et en bio-informatique à l’université de Birmingham, a participé à la réunion du 11 mars. Avec celle de Swansea et Warwick, leurs universités collaborent depuis 2014 au projet d’infrastructure cloud pour la bio-informatique microbienne (Cloud Infrastructure for Microbial Bioinformatics – dit Climb).

Répartie sur quatre sites, Climb fournit aux microbiologistes la puissance de calcul, le stockage et les outils nécessaires à l’analyse des données génomiques : les deux établissements mettent entre 3 000 et 4 000 processeurs virtuels (sur un total de 7 680 vCPU) à la disposition des chercheurs ainsi que des logiciels open source, notamment OpenStack (Kilo) pour l’infrastructure en cloud et Ceph pour le stockage au long court. Les serveurs supportant OpenStack sont siglés IBM, tandis que les switches VDX et les routeurs virtuels de Brocade assurent l’interconnexion entre les sites. L’architecture de stockage multisite Ceph repose sur une distribution Red Hat et des équipements Dell. Selon Thomas Connor, « il s’agit probablement du plus grand système IT au monde dédié à la microbiologie. »

Pour le consortium Cog-UK, Thomas Connor, Nick Loman et leurs collègues ont mis en place Climb-Covid, un enclos à l’intérieur des systèmes existants dans les datacenters sur site des universités de Birmingham et Cardiff. Cette plateforme, installée en trois jours, n’utilise qu’une petite fraction de la capacité de Climb, qui continue d’accueillir la recherche appliquée à différents pathogènes.

« C’est tout l’avantage du cloud », explique Thomas Connor qui ajoute que le projet n’a pas eu le même effet sur ses propres ressources. « Toute mon année a été consacrée à la Covid. »

Avec 30 000 paires de bases, ces éléments d’information génomique, le Sars-Cov-2 est bien loin des 3,1 milliards de l’ADN humain. Mais les trois machines de séquençage de l’agence de santé galloise qui traitent le génome par blocs de 400 paires de bases produisent jusqu’à 120 Go de données chaque jour.

« Le défi informatique consiste à reconstruire le puzzle à partir des pièces », explique Connor qui travaille aussi pour l’agence. Le système doit aussi manipuler des métadonnées, notamment des informations démographiques, géographiques et autres concernant le traitement de l’échantillon, et sans tarder pour que ce soit utile.

L’agence de santé galloise traite généralement les échantillons en cinq jours, à comparer aux longs mois que prend habituellement la recherche scientifique. Le processus est plus simple au Pays de Galles qu’en Angleterre.

Le territoire séquence le virus Sars-Cov-2 des deux tiers des tests déclarés positifs à la Covid-19 en laboratoire et élimine ceux de charge virale moindre, car peu susceptibles de donner des résultats. Plus centralisé que son homologue anglais, le service de santé publique gallois et son système unique de gestion des informations de laboratoire pour les pathologies facilitent la collecte des métadonnées. « Nous pouvons agir très vite ici. En Angleterre, le système est plus fractionné. Climb donne un moyen d’intégrer ces données. »

Les deux universités ont affecté le financement du Cog-UK à l’achat de disques SSD pour booster l’infrastructure Climb : la capacité de stockage est passée à 1,5 Po (pétaoctet) sur SSD et à 2,8 Po sur disques classiques. Thomas Connor salue la réactivité de Dell à Cardiff et Lenovo à Birmingham, qui ont fourni rapidement les nouveaux équipements, et remercie ses collègues de l’équipe d’assistance HPC – Simon Thompson à Birmingham et Christine Kitchen et Martyn Guest à Cardiff.

« Nous pouvons agir très vite ici [au Pays de Galles]. En Angleterre, le système est plus fractionné. »
Thomas ConnorProfesseur, Université de Cardiff

Valoriser l’existant

Tout comme la production et le stockage des données génomiques, l’analyse logicielle du Cog-UK passe par la valorisation de l’existant. David Aanensen, professeur et responsable du groupe de veille génomique au Big Data Institute de l’université d’Oxford, est aussi à la tête du centre de veille génomique des agents pathogènes (Centre for Genomic Pathogen Surveillance), installé dans les locaux du Big Data Institute et sur le campus Wellcome Genome, qui accueille également le Wellcome Sanger Institute.

Fondé en 2015, le centre a développé ses propres logiciels déjà largement utilisés pour collecter et analyser les données génomiques des maladies dans les pays pauvres.

David Aanensen et son équipe se sont attelés à la Covid-19 dès janvier 2020, d’abord avec les budgets existants et des subventions du National Institute of Health Research. « Tous les acteurs ont donné leur temps et utilisé les infrastructures et les financements existants », constate-t-il à propos du Cog-UK.

Les partenaires au sein du Cog-UK ont notamment fait une utilisation intensive de deux packages logiciels du centre, à savoir Data-flo et Microreact. Les agences galloise et écossaise de la santé, Public Health Wales et Health Protection Scotland, exécutent des instances locales de Data-flo qui gère les pipelines de données épidémiologiques. Grâce aux logiciels open source, elles peuvent visualiser les données génomiques et les relier à des informations personnelles et commerciales, notamment aux dossiers des patients et aux noms des maisons de retraite.

Mis au point au cours des cinq dernières années avec le financement de Wellcome, le logiciel Microreact qui sert à visualiser et partager des données épigénomiques a été largement utilisé. Le centre a installé des instances locales chez Public Health Wales et Health Protection Scotland, mais aussi au Centre européen de prévention et de contrôle des maladies et dans leurs équivalents américains (CDC). On le retrouve dans d’autres agences de santé en Europe ainsi qu’en Argentine, au Brésil, en Colombie et en Nouvelle-Zélande.

« Les conséquences sont énormes. Nous avons à cœur de proposer des outils et des moyens de traitement des données qui rassemblent des informations de qualité afin de nourrir la réflexion politique et d’agir à grande échelle », commente David Aanensen. « La philosophie de gratuité des logiciels et des données ouvertes en est un élément essentiel. »

« La philosophie de gratuité des logiciels et des données ouvertes nous tient à coeur ».
David AanensenProfesseur, Université d'Oxford

 En plus de continuer d’assurer la prise en charge des applications existantes, le Centre a créé et adapté des logiciels à la pandémie de Covid-19. Parmi les nouveautés, les sites de séquençage Cog-UK peuvent désormais glisser-déposer sur la plateforme Climb-Covid les feuilles de calcul, des métadonnées, des échantillons et en vérifier la validité.

Un wrapper Web est venu étoffer Pangolin, l’outil « d’attribution phylogénétique des lignées d’épidémies mondiales nommées » (Phylogenetic Assignment of Named Global Outbreak LINeages en VO). Développé par l’équipe d’Andrew Rambaut, professeur d’évolution moléculaire à l’université d’Édimbourg, le logiciel Pangolin attribue les génomes de Sars-Cov-2 à des lignées. Avec l’accès facilité, Pangolin traite des centaines de milliers d’échantillons et ses utilisateurs visualisent la répartition mondiale des différentes lignées, notamment celle du variant B117.

Il a donc fallu augmenter la capacité de calcul allouée aux algorithmes et à la visualisation pour prendre en charge le volume des données collectées par le consortium Cog-UK. Par exemple, Canvas a été remplacé par Web GL pour la visualisation des arborescences permettant d’identifier des relations entre les génomes. Web GL est couplé avec un algorithme qui réduit les détails affichés des gros échantillonnages. « Nous pouvons désormais visualiser des arborescences de plusieurs millions [de relations entre génomes], même si nous n’y sommes pas encore. », explique David Aanensen.

Ce travail s’inscrit dans la démarche du Centre qui cherche à éviter de soumettre le développement de ses logiciels à un cahier des charges trop restreint, en mettant l’accent sur les produits existants. « Beaucoup de processus se sont accélérés » au Centre pendant la pandémie, rapporte David Aanensen, ce qui s’est surtout traduit par des heures de travail supplémentaires : « En un mot, nous avons doublé notre charge de travail. » Le professeur constate que fédérer les moyens informatiques des différents laboratoires de séquençage s’est avéré un atout pour le Cog-UK ou, selon sa formule, « le séquençage décentralisé allié à l’analyse centralisée ». Il ajoute qu’il faut « apporter une valeur ajoutée aux sites locaux, mais contextualiser les données locales dans le paysage global ». D’après lui, une belle énergie s’est créée dans la collaboration avec des acteurs partout au Royaume-Uni, et tout a démarré rapidement avec des objectifs de résultat.

Des projets à venir

Le travail du Cog-UK sur la pandémie n’est pas encore fini que ses acteurs envisagent avec enthousiasme comment valoriser l’expérience à l’avenir. « Nous pourrions l’appliquer à n’importe quel pathogène auquel on s’intéresse, » selon Thomas Connor de l’université de Cardiff.

Des échantillons de tuberculose et d’agents pathogènes gastro-intestinaux sont déjà séquencés, mais rarement partagés, et d’autres maladies infectieuses pourraient aussi être séquencées. Pour conclure, « nous avons prouvé l’importance de mettre rapidement ce type de données en commun. C’est la grande leçon à en tirer. »

Pour approfondir sur Big Data et Data lake