Université : les supercalculateurs se conçoivent désormais comme des super-Clouds
Des nœuds x86, du réseau Intel et des containers virtuels facturés à l’heure sont désormais la norme pour bâtir les supercalculateurs de la recherche universitaire. Comme le montre le cas de l’Université de Montpellier.
À en croire l’Université de Montpellier, il faut oublier Risc, Infiniband et toutes les autres technologies exotiques dont on avait pu entendre parler dans le supercalcul. Désormais, les clusters que déploient les universités ressemblent à des Clouds privés que toute entreprise concernée par la simulation (PMI, bureaux d’études, etc.) serait capable d’assembler dans sa salle informatique.
La raison de ce basculement, étonnamment, est politique. En 2010, dans le cadre de son programme Investissements d’avenir, le gouvernement a invité les universités à se regrouper pour créer des Initiatives d’excellence (IDEX), c’est-à-dire des ensembles pluridisciplinaires d'enseignement supérieur et de recherche, de rang mondial. Dès lors, il a fallu repenser les supercalculateurs pour qu’ils servent non plus une spécialité, mais une multitude d’utilisateurs mutualisés dont les projets de recherches divergent totalement. Quand certains souhaitent mettre à l’épreuve des bibliothèques de fonctions mathématiques complexes, d’autres veulent plus classiquement tirer du sens d’après un gigantesque lac de données.
L’enjeu : commercialiser du temps calcul sur le modèle du Cloud
« L’Université de Montpellier regroupe à présent 12 établissements, soit 50.000 étudiants et 6.000 scientifiques spécialisés en biologie, en agroalimentaire, en environnement, en santé ou encore en sciences humaines », resitue Christophe Tuliot, en charge du supercalculateur que l’université a déployé en août dernier. « Nous hébergeons 70 laboratoires de recherche qui ont eux-mêmes plusieurs tutelles : CNRS, IRD, Polytechnique Montpellier, INRA, Inserm, ENSCM, etc. »
A cela s’ajoute que, dans le cadre des IDEX, un projet de supercalculateur est financé à la fois par l’état par la région. Conséquence, cette dernière accorde des fonds à la condition que le mésocentre (des centres de calculs universitaires mutualisés entre plusieurs centres de recherche) mette à disposition du temps de calcul pour les projets des entreprises privées alentour, afin de dynamiser l’économie locale.
« L’usage, dans les centres de supercalcul nationaux, est d’offrir des heures de calcul à des laboratoires après avoir étudié l’intérêt de leurs projets. Dans notre contexte, cette évaluation n’est plus pertinente. Par conséquent, nous avons conçu notre supercalculateur comme un Cloud commercial. Dans notre modèle, chaque équipe de chercheurs loue l’usage de machines virtuelles de calcul, facturées 2 centimes l’heure par cœur de processeur et avec 1 Go de RAM, et il y déploie ses logiciels », explique Christophe Tuliot.
On notera que le tarif est plus intéressant que celui des Cloud commerciaux (environ 7 centimes chez AWS, par exemple), mais Christophe Tuliot se défend de vouloir faire du business : « Seuls les projets scientifiques, chapeautés par un directeur de recherche, sont tolérés. Il n’est pas question de louer des ressources à une activité commerciale », assure-t-il.
Calcul : maximiser la densité dans un cluster homogène
Pour fournir de la puissance à la demande, quelle que soit l’application et le nombre de ressources réservées, la première exigence est de constituer un Cluster homogène : tous les nœuds auront la même puissance. La seconde est que chaque nœud doit individuellement être capable d’exécuter les applications les plus gourmandes en RAM, ce qui ne se détermine qu’en effectuant un audit auprès des utilisateurs.
Concernant la taille du supercalculateur, elle dépend surtout de l’enveloppe budgétaire. « Nous avons demandé à Dell EMC (NDR : qui revendique d’équiper la moitié des mésocentres français avec ses technologies x86) de nous construire un supercalculateur qui rivaliserait avec celui de l’université de Toulouse pour un budget de 2 millions d’euros », lance Christophe Tuliot. Dell EMC a relevé le défi en proposant une machine dotée de 308 nœuds qui atteignent ensemble la performance de 331 teraflops (milliers de milliards d’opérations arithmétiques par seconde), loin devant les 274 teraflops d’EOS, le supercalculateur de Toulouse.
Dernière subtilité, le supercalculateur de Montpellier est hébergé au CINES (Centre Informatique National de L’Enseignement Supérieur, lui-même situé à Montpellier), où tout mètre-carré occupé est facturé. « Il nous fallait donc trouver un moyen de rendre le supercalculateur le plus dense possible », se souvient Marc Mendez, l’expert en solutions HPC de Dell EMC qui a conçu le supercalculateur héraultais.
La solution trouvée par Dell EMC a été de proposer des nœuds sans disque. « Certains calculs ont besoin de stocker des informations temporaires en cours d’exécution, mais pas tous. De fait, dans certains cas, les disques intégrés aux nœuds ne serviraient à rien et il nous a semblé plus pertinent de proposer un pool de stockage dans des baies externes », ajoute Marc Mendez.
Au final Dell EMC a donc mis au point un cluster de 308 nœuds PowerEdge C6320, chacun équipé de 128 Go de RAM et de deux processeurs Intel Xeon Broadwell E5-2680v4 de 14 cœurs chacun à 2,4 GHz. Soit un total de 8.624 cœurs et 39 To dans 5 armoires 42U contenant chacune 64 nœuds. « Les PowerEdge C6320 ont le mérite de s’insérer dans des châssis 2U qui contiennent quatre nœuds, ce qui permet de mutualiser entre eux les ventilateurs et les alimentations pour minimiser la facture énergétique. Cette solution est préférable à un seul nœud de 2U avec plus de cœurs sur sa carte mère car celui-ci saturerait le réseau », commente Marc Mendez.
Il est à noter que si 128 Go (8 x 16 Go) par nœud satisfait aujourd’hui tous les besoins, ces PowerEdge C6320 supportent de grimper jusqu’à 640 Go (8 x 64 Go supplémentaires).
Réseau : Omni-Path d’Intel remplace Infiniband
La plus grande surprise dans le design de ce supercalculateur de nouvelle génération réside dans le réseau. Pour interconnecter les nœuds entre eux - ou avec les disques qui contiennent leurs données - Dell EMC n’utilise pas le classique Infiniband mais la technologie Omni-Path d’Intel sur des cartes Ethernet à 100 Gbits/s.
« Infiniband est un standard industriel mais Melanox est désormais le seul à le proposer, ce qui pose question sur sa pérennité. L’alternative d’Intel est au même niveau de performance et s’accompagne de commutateurs à 48 ports au lieu de 36 sur Infiniband. Nous avons donc pu découper chaque armoire en deux lots de machines : 32 liens connectent les nœuds et les 16 autres partent vers le cœur de réseau », détaille Marc Mendez.
Le cluster est équipé d’un second réseau, en 10 Gbits/s Ethernet celui-ci.
« Outre l’administration, ce réseau connecte les machines à un second pool de stockage où sont hébergées toutes les images disque de démarrage que les nœuds chargeront dans leur RAM à l’allumage, ce qui nous permet de faire booter l’ensemble du cluster en moins de 5 minutes ».
Stockage : Lustre pour atteindre 6 Go/s sur un cluster de 1 Po
Les images disques qui contiennent les OS des machines ainsi que les codes des utilisateurs sont stockés sur un NAS NFS qui totalise 320 To sur 120 disques magnétiques. Ce NAS est composé de deux serveurs PowerEdge R630 (pour la redondance) et de deux baies de 60 disques.
Le second pool de stockage est basé sur le système de fichiers Lustre. Totalisant 1 Po d’espace, il est composé d’un serveur Lustre, de deux serveurs de métadonnées qui indexent jusqu’à 2 milliards de fichiers et de deux serveurs qui pilotent deux baies totalisant 240 disques SAS de 6 To. Selon Dell EMC, le format SSD a ici été proscrit car beaucoup plus cher, moins dense et n’offrant qu’un faible avantage de performances dans cette configuration en réseau.
Lustre est un système de fichiers distribué, qui permet d’atteindre des capacités record en simulant des volumes virtuels à partir d’un cluster de disques. « Des alternatives existaient. Mais nous ne savions pas optimiser GPFS d’IBM sur nos matériels. Nous n’avions pas non plus assez de recul sur la haute disponibilité de BeeGFS - le système de fichiers lancé par l’institut Fraunhofer en 2014. Quant à CephFS, il n’était tout simplement pas disponible lors de la mise en place du mésocentre de Montpellier ».
Lustre présente par ailleurs deux avantages. « Contrairement à NFS, les deux serveurs qui pilotent les disques sont tous les deux actifs, ce qui permet de répartir la charge, y compris sur l’écriture d’un seul fichier ». Et il existe un pilote RDMA ce qui « permet de charger les fichiers directement dans la mémoire des serveurs, alors que les données NFS doivent être décodées par plusieurs couches de protocoles. L’un dans l’autre, nous atteignons des vitesses d’accès à 6 Go/s sur le stockage Lustre, alors que nous plafonnons à 2 Go/s sur le NFS ».
Système : des containers Trinity qui savent communiquer entre eux
Dernier composant technique qui mérite d’être connu, l’OS des nœuds est CentOS - une déclinaison de Red Hat Linux dépourvue de toute licence. « 90% des supercalculateurs que nous avons déployés en France fonctionnent sous CentOS, pour réduire les coûts de support, sachant que nous nous occupons, avec Intel, de fournir des outils de compilation et des versions des librairies spécifiquement optimisés pour nos clusters ». Marc Mendez précise que le CERN lui-même est devenu un adepte de cet OS sur lequel fonctionne désormais l’essentiel des outils de la communauté scientifique.
Surtout, CentOS n’exécute pas de machines virtuelles sur les nœuds, mais des containers qui embarquent les codes des scientifiques.
La technologie ici utilisée - qui sert en définitive à segmenter la puissance globale en une multitude d’instances virtuelles pour les utilisateurs - est Trinity de Clustervision. Trinity présente l’avantage de fonctionner comme du Peer-2-Peer, où chaque container communique aux autres les informations qui éventuellement leur manquent, alors que des containers classiques, orchestrés par Kubernetes par exemple, ont plutôt un fonctionnement autonome.
Il est à noter que Clustervision vient de lancer une nouvelle version, TrinityX, qui utilise à présent des containers au format Docker (TrinityX n’était cependant pas encore disponible lors de la conception du mésocentre de Montpellier).
Au total, le mésocentre de l’université de Montpellier occupe dix armoires 42U. Outre les cinq armoires dévolues aux nœuds de calcul, une armoire entière contient le cluster Lustre et une autre le cluster NFS ainsi que le cœur de réseau. Les trois armoires restantes contiennent un emplacement vide pour accueillir toute extension du supercalculateur, ainsi que deux anciens supercalculateurs encore en un service. Il s’agit de la maquette du cluster Dell EMC fonctionnant sur une génération précédente de Xeon et d’un vieil IBM spécialisé qui totalisait 15 teraFlops. En 2010, il avait coûté 2,9 millions d’euros.