SuperMUC : un supercalculateur au service de la recherche en Green IT
Derrière les résultats de travaux de recherche qu’il permet de produire, le supercalculateur du Leibniz Supercumpting Centre à Munich cache un environnement de recherche au service de l’optimisation de l’efficacité énergétique, depuis les bâtiments jusqu’au logiciel.
SuperMUC, le supercalculateur du Leibniz Supercumputing Center (Lrz), à Munich, s’est récemment distingué par une simulation de tremblement de terre mobilisant jusqu’à 1,42 Pflops, soit 44,5 % de la capacité de calcul théorique disponible sur le supercalculateur. Dr Ludger Palm, responsable des relations publiques du centre, insiste sur les efforts d’optimisation logicielle nécessaires pour atteindre ce niveau d’utilisation : « en général, il est rare qu’un seul programme parvienne à utiliser plus de 5 à 10 % de la capacité. » Quel est donc le secret de SuperMUC pour atteindre de tels résultats ? Le Dr Arndt Bode, président du conseil d’administration du Lrz, explique mettre à la disposition des chercheurs un groupe d’experts chargés de leur accompagnement. Mais « les utilisateurs de SuperMUC sont déjà familiers du parallélisme et des supercalculateurs ». Les équipes utilisatrices rassemblent ainsi généralement chercheurs, spécialistes de l’algorithmique, et informaticiens, et doivent démontrer, dans leur dossier de demande d’utilisation du supercalculateur, leur expérience dans le calcul massivement parallèle.
Une aide à l’optimisation du code
Toutefois, le code prévu pour être exécuté sur le supercalculateur l’est une première fois sur un cluster x86 fonctionnant sous Linux, afin d’observer son comportement et d’identifier les processus les plus gourmands non seulement en ressources processeur mais également, sinon surtout, en ressources électriques - en s’appuyant sur des outils développés en coopération avec IBM. Et c’est là que l’on trouve une autre source d’optimisation : la fréquence processeur utilisée par les différents processus. Le Dr Ludger Palm explique chercher là le meilleur compromis entre performances et consommation électrique, du fait du lien entre celle-ci et la fréquence de fonctionnement des processeurs. Un exercice dont il reconnaît toutefois la difficulté avec une architecture regroupant plus de 150 000 coeurs de processeurs : « nous avons donc une équipe chargée de compiler et d’analyser une base de données d’efficacité énergétique pour développer des outils visant à améliorer l’optimisation. » Selon le Dr Arndt Bode, il faut généralement 4 semaines avant de pouvoir accéder au supercalculateur. Une centaine de projets l’utilisent en moyenne chaque année.
Pour l’avenir, les équipes de SuperMUC espèrent pouvoir aller plus loin, et ajuster le fonctionnement de composants périphériques aux processeurs - mémoire, interfaces réseau, contrôleurs de stockage, etc.
Un système de refroidissement innovant
L’efficacité énergétique est au coeur de la conception du supercalculateur mis en service début 2012. Les 9 400 noeuds de SuperMUC sont refroidis par une eau à 40°C. Après absorption des calories produites par les processeurs, celle-ci ressort à 65°C. Evoluant en circuit fermé, cette eau passe par un échangeur pour transférer ses calories excédentaires à un circuit secondaire. Celui-ci est lui-même refroidi par free cooling, sur la toiture du bâtiment, en été. En hiver, les calories du circuit secondaire sont utilisées pour chauffer les locaux administratifs adjacents. C’est IBM qui a conçu, sur mesure, pour le Lrz, ce système de refroidissement, comme une preuve de concept, et un système expérimental visant à étudier la production industrielle afin de servir, ultérieurement, d’autres clients. Le secret de l’opération ? Des considérations budgétaires. Le Dr Ludger Palm explique ainsi que le centre dispose d’un budget global fixe : « il s’agissait de savoir quelle part du budget reviendrait aux constructeurs et quelle part reviendrait à l’énergéticien. » De quoi motiver les premiers à innover afin de s’assurer la part du lion. Et pour l’heure, « pas de problèmes de fuites » ni de stabilité. Une demi-surprise : comme le rappelle le Dr Ludger Palm, « IBM avait déjà une vaste expérience dans le refroidissement liquide ».
Le centre de calcul lui-même reste toutefois organisé en allées chaudes et froides : les ressources de stockage et les équipements réseaux sont refroidis par air. Mais sans air pulsé dans la salle de production : les systèmes de refroidissement par air sont intégrés aux baies et rafraîchis eux-mêmes par eau. L’eau et l’électricité sont amenés par les faux planchers; seule la connectique réseau passe en aérien, au-dessus des baies.
Une approche globale de l’optimisation énergétique
Mais la démarche d’efficacité énergétique s’étend au-delà de ce supercalculateur, dont la conception a commencé en 2008, pour concerner toute l’infrastructure du centre de calcul, y compris immobilière. Voire au-delà : les architectes responsables des locaux administratifs adjacents se sont fortement penchés sur cette question. Par exemple, les bureaux sont toujours orientés au nord, pour limiter le recours à la climatisation. Quant aux salles de réunion, orientées au sud, leurs ouvertures sur l’extérieur sont équipées de déflecteurs, renvoyant les rayons du soleil lorsqu’il est haut dans le ciel, afin de limiter les apports caloriques en été, mais les laissant passer lorsqu’il est bas, en hiver. La géothermie est également utilisée.
Un cluster Linux refroidit par eau froide fait en outre l’objet d’une expérimentation visant à récupérer les calories générées pour produire… de l’électricité, et ainsi augmenter l’efficacité énergétique de l’ensemble. Baptisé CoolMUC, ce projet n’est pour l’heure que purement expérimental. Mais comme le souligne le Dr Arndt Bode, « nous essayons, afin de préparer l’avenir ». Résultat de ce souci d’efficacité, le Lrz mesure non pas seulement le PUE - coefficient d’efficacité énergétique - de SuperMUC mais dans l’ensemble du centre de calcul, en intégrant son patrimoine immobilier. Celui-ci s’établit aujourd’hui à 1,1 pour le seul supercalculateur, relève le Dr Arndt Bode, et à 1,4 à l’échelle de l’ensemble du centre de calcul, avec des systèmes refroidis par eau froide affichant un PUE de l’ordre de 1,6 en moyenne.
Si certains éléments de SuperMUC relèvent de la propriété intellectuelle d’IBM, d’autres sont en revanche le fruit de travaux de recherche régulièrement publiés et largement accessibles et réutilisables. Que ce soit à l’échelle de la Bavière et de l’Allemagne qu’au-delà.