Stampede : un supercalculateur au service de «découvertes qui changent le monde»
À l’occasion la seconde édition de sa grand messe annuelle, Dell nous a invité à découvrir Stapemde, le nouveau supercalculateur du centre texan d’informatique avancée. Très enthousiaste à l’idée de la prochaine mise en production officielle de Stampede, Jay Boisseau, directeur du centre, explique sur son centre «fournit la puissance nécessaire à des découvertes qui changent le monde.»
La citation est attribuée à Albert Einstein. Peut-être de manière un abusive. Mais elle n’en illustre pas moins l’importance de l’informatique à hautes performances pour le monde scientifique : «Les ordinateurs sont incroyablement rapides, précis, et stupides; les humains sont incroyablement lents, imprécis, et géniaux; ensemble, ils sont d’une puissance au-delà de l’imaginable.» En tout cas, cette citation éclaire bien sur l’état d’esprit des équipes du Tacc, le Texas Adcanced Computing Center (Centre texan d’informatique avancée), et en particulier sur celui de son directeur, Jay Boisseau, manifestement très enthousiaste à l’idée de la mise en production effective de Stampede le 7 janvier prochain. On retrouve le même engagement chez Tim Carroll, directeur Informatique pour Recherche de Dell, pour qui «plus vite Stampede sera en production, plus vite nous aiderons un peu plus la science.» Avec Intel, notamment, le groupe compte parmi les partenaires du Tacc. Avec Stampede, le Tacc doit notamment répondre à une forte augmentation de la demande : ses systèmes supportaient 200 utilisateurs en 2004, contre six fois plus huit ans plus tard. Le système est impressionnant : plus de 6000 noeuds interconnecté par InfiniBand, pour plus de 96 000 coeurs de processeurs Intel Xeon Phi - «le plus vaste déploiement de l’architecture Intel MIC au monde», basée sur Larrabee -, pour délivrer plus de 2 pétaflops de traitement sur les seuls coeurs principaux, et plus de 7 pétaflops pour les coprocesseurs. Chaque noeud dispose de ses ressources de stockage propres, complétées par un pool de ressources partagées géré par 72 serveurs d’entrées/sorties, et exploitant le système de fichiers Lustre. Au total, on compte 14 pétaoctets de stockage partagé, et 1,6 Po de stockage local. Si Stampede disposera en tout de 205 To de mémoire vive, il est doté d’un ensemble de 16 noeuds disposant de 1 To de mémoire vive chacun, une ressource partagée pour un ensemble de 128 noeuds de traitement embarquant chacun un GPU Kepler2 de Nvidia - l’objectif étant là de proposer des capacités de traitement à grandes quantités de mémoire vive et de représentation graphique à distance. L’ensemble doit fonctionner sous Linux (CentOS), et les traitements des scientifiques devraient être ordonnancés avec Slurm. Pour Stampede, le Tacc prévoit un taux d’indisponibilité de 4 %. Cela peut paraître élevé mais l’impératif n’est pas tant de fournir une disponibilité parfaite que des performances sans concession. Et pour éviter que des cycles CPU de soient gâcher, les équipes du Tacc peuvent aider les développeurs à valider leur code. Et il n’est pas question ici d’informatique à la demande clés en mains : pour Stampede, on travaille «essentiellement en ligne de commande, avec des développeurs de haut niveau capables d’optimiser leur code au niveau du processeur.» Certains projets profitent toutefois d’une interface Web. Mais l’optimisation est un point clé : pour Jay Boisseau, c’est bien simple, «on essaie de faire en sorte que tout le traitement soit réalisé sur un même système car la puissance de traitement progresse bien plus vite que la bande passante entre les noeuds.» Sur place, Stampede impressionne par son... bruit; un niveau sonore bien supérieur à celui que l’on peut entendre dans la plupart des centres de calcul d’entreprises. Pas question pour autant de gâcher de l’énergie : selon les équipes du Tacc, Stampede devrait afficher un PUE de l’ordre de 1,2.