OCCIGEN, le nouveau supercalculateur de la recherche française, est déjà saturé

Entré en service au début de l’année 2105, OCCIGEN est, avec ses 2,1 Pflop/s en pointe, l’une des machines les plus puissantes en production en France. Et pourtant, le nouveau supercalculateur du GENCI est déjà victime de son succès.

Totalement dédiée à la recherche française, OCCIGEN (pour OCcitanie, Cines, GENci) est le supercalculateur public le plus puissant installé en France. Il se classe juste derrière le Pangea de Total.

La machine affiche une puissance de 2,1 Pflop/s, mieux que Curie - le supercalculateur du TGCC (Très Grand Centre de Calcul du CEA) qui était le plus puissant de France lors de sa mise en service et qui affiche 1,6 Pflop/s sur la balance. C’est 8 fois plus que JADE - le précédent supercalculateur qu’il a remplacé à Montpellier, dans les locaux du CINES (Centre Informatique National de l’Enseignement Supérieur).

6 Pflop/s au total qui ne couvrent que 50 % des besoins des chercheurs

« Avec OCCIGEN au CINES, Curie au TGCC de Bruyères-le-Châtel et nos deux calculateurs à l’Idris (Institut du développement et des ressources en informatique scientifique), nous affichons une puissance totale de près de 6 Pflop/s, mais nous ne parvenons à répondre qu’à 50% des besoins des chercheurs », estime Stéphane Requena, directeur technique du GENCI qui gère ce parc machine.

Occigen

« Comme chaque année, nous allons être obligé de faire des coupes dans les heures de calculs réclamées par les chercheurs car nous ne pouvons pas répondre à la demande. Globalement, il nous faudrait deux fois plus de puissance, ce qui est cohérent avec ce qui se passe en Allemagne où les chercheurs disposent de 2 à 2,5 fois plus de puissance que nous. »

La puissance de calcul disponible offerte par le GENCI est passée de 20 Tflop/s à 6 000 Tflop/s en 7 ans. « Nous multiplions par deux la puissance tous les ans, mais malgré cela, nous ne pouvons pas absorber l’intégralité des demandes des chercheurs français. »

Si Curie est une machine qui est dédiée à 80% pour PRACE, le programme européen de calcul intensif, et à 20% pour la France, OCCIGEN est quant à lui totalement réservé aux chercheurs français.

OCCIGEN bénéficie de la dernière génération de processeurs Xeon

OCCIGEN met en œuvre la toute dernière génération de puces Intel  Xeon d’architecture Haswell. Ce sont des Xeon E5-2690v3 qui ont été choisis, préférés au Xeon E7 pourtant aujourd’hui disponibles dans cette architecture Haswell.

Stéphane Requena explique ce choix : « Outre le coût très élevé du E7, celui-ci est bien adapté aux nœuds larges, c'est-à-dire avec beaucoup de processeurs à chaque nœud. Nous, nous privilégions une architecture à nœuds fins, mieux adaptée à faire tourner des applications fortement parallélisables ». Chaque nœud ne dispose donc « que » de 2 Xeon E5 dans une version à 12 cœurs et cadencée à 2,6 GHz. Au total, OCCIGEN dispose de 50 544 cœurs de calcul.

Le calculateur compte 27 racks de calcul et 7 racks pour la gestion du cluster et les entrées/sorties. « Nous avons cherché à mettre en place une machine qui est très homogène et équilibrée avec de la puissance de calcul, une capacité mémoire importante avec 200 To de mémoire disponible et une forte capacité en entrées/sorties avec des transferts qui peuvent atteindre 120 Go/s. »

Un effort important sur la consommation électrique du calculateur

La comparaison entre Curie et OCCIGEN, tous deux basés sur l’architecture Bull, permet d’évaluer les progrès faits par Intel entre son architecture Haswell et la génération SandyBridge, lancée en 2011 – et qui équipe Curie.

Avec 50 544 cœurs, OCCIGEN offre une puissance de 2,1 Pflop/s contre 1,67 Pflop/s pour son ainé qui compte 77 184 cœurs.

OCCIGEN fait mieux avec beaucoup moins de cœurs et une fréquence de fonctionnement un peu plus basse (2,6 GHz contre 2,7 GHz). Mais là où le nouveau supercalculateur creuse véritablement l’écart, c’est sur la consommation électrique. Celle-ci chute de 2 251 kW à 935 kW « seulement ». Une réduction de la facture électrique bienvenue alors que le coût énergétique des grands supercalculateurs représente entre 20 à 30% de son TCO global.

OCCIGEN affiche un PUE (Power Usage Effectiveness) de l’ordre de 1,1 pour sa partie calcul, une valeur impressionnante alors que Curie affichait 1,4.

« L’appel d’offre d’OCCIGEN était le premier appel d’offre où il y avait un focus tout particulier sur la gestion de la consommation électrique par le calculateur », explique Stéphane Requena. « Nous avons demandé aux candidats de se montrer très agressifs sur les économies d’énergies, la façon dont ils pouvaient faire varier les fréquences des processeurs pour optimiser la consommation électrique, ou encore sur le refroidissement. »

Bull a remporté cet appel d’offre en proposant un refroidissement direct par eau chaude sur les composants. Un système plus efficace que le refroidissement par air et porte glacée tel qu’il avait été mis en place sur Curie.

Le GENCI a privilégié une architecture 100% x86, sans GPU...

Si OCCIGEN innove en termes d’efficacité énergétique, le GENCI est resté sur une architecture 100% x86 et ne s’est pas laissé tenter par les promesses des architectures hybrides CPU/GPU.

Stéphane Requena s’explique sur ce choix plutôt conservateur : « Notre souci n°1, ce sont les 3 500 utilisateurs actifs qui utilisent chaque jour les calculateurs de nos trois centres de calcul. Ces utilisateurs ont des applications qui ont été développées pour certaines il y a quelques mois, mais pour d’autres, il y a plusieurs dizaines d’années. Certaines font quelques dizaines de milliers de lignes, d’autres plusieurs millions. Cela va représenter pour eux énormément de temps à consacrer à adapter leurs applications, voire les reprogrammer. »

Autre réserve marquée par l’expert vis-à-vis des GPU, la pérennité des langages. « CUDA de NVidia n’est pas un standard. Nous ne pouvons pas dire à quelqu’un qui a un code depuis 20 ans de migrer en CUDA si nous n’avons pas la certitude que ce langage va durer. L’investissement humain dans ces codes est parfois supérieur à l’investissement fait dans les machines. Nous devons être sûrs d’offrir des standards de programmation pérennes sur une longue durée. OpenMP, OpenACC  et, dans une moindre mesure, OpenCL sont en train d’émerger. Ils vont donner confiance aux gens qui vont pouvoir commercer à porter leurs codes sur les GPU. »

Pas non plus d’accélérateur Xeon Phi, avec ses 60 cœurs x86 dans OCCIGEN. « Nous considérons que la prochaine génération de Xeon Phi  « Knights Landing » sera la première véritablement utilisable en production. Jusqu’à présent, l’architecture évoluait trop rapidement pour que la solution soit pérenne en environnement de production. »

... un choix qui pourrait évoluer pour l'avenir

Autant de pistes techniques qui n’ont pas été retenues pour OCCIGEN mais qui pourraient bien faire leur apparition sur le prochain supercalculateur du GENCI.

« Nous suivons diverses pistes. Les Xeon Phi Knights Landing en sont une, les GPU fortement intégrés en sont une autre. Jusqu’à maintenant, le problème des GPU, c’était leur connexion via PCI Express, un lien qui fait perdre beaucoup de temps dans les applications de calcul intensif. Les prochaines générations pourraient pallier cela. Nous suivons notamment ce qu’a annoncé IBM avec OpenPower. Ce lien entre le GPU et le processeur va être beaucoup mieux optimisé et il devrait y avoir beaucoup moins de pertes de temps dans les transferts entre CPU et GPU. Couplé à l’émergence de standards de programmation des GPU, c’est ce qui nous fait considérer très sérieusement cette piste GPU aujourd’hui. »

Le futur pour le GENCI, c’est le remplacement de Curie dont les premiers éléments ont été installés en 2011 et la machine complétée en mars 2012. Le travail est en cours au niveau européen pour évaluer les besoins de PRACE. La configuration du successeur de Curie en découlera. Ce futur calculateur devrait être déployé entre fin 2016 et début 2017.

Pour approfondir sur HPC