Supercomputing 2012 : des supercalculateurs dopés aux GPU
On l’avait déjà noté l’an passé et la montée en puissance des supercalculateurs hybrides combinant processeurs traditionnels et GPU s’est accélérée cette année. Titan, le nouveau champion mondial des supercalculateurs combine ainsi avec bonheur les puces Opteron d’AMD avec les accélérateurs de Nvidia pour dépasser la barre des 17 Pétaflops. Mais Nvidia doit faire face à la concurrence des FirePro d'AMD et à celle des Xeon Phi d'Intel.
Les GPU deviennent peu à peu des accessoires indispensables aux supercalculateurs mondiaux. Nvidia, qui a très tôt poussé cette tendance, récolte ainsi les fruits d’un patient travail débuté il y a bientôt 10 ans. Le salon SuperComputing 2012, qui se tient cette semaine à Salt Lake City, illustre parfaitement cette tendance.
À l’occasion de la publication du rituel Top500 semestriel des supercalculateurs, on a ainsi pu dénombrer 62 systèmes combinant CPU et GPU. Surtout, les accélérateurs semblent de plus en plus s’imposer comme une évidence pour la conception des grands systèmes au-delà du pétaflops. Ainsi, sur les 20 premiers systèmes mondiaux, 5 s’appuient à un degré ou à un autre sur des accélérateurs (4 sur des GPU Nvidia et un sur le Xeon Phi d’Intel).
Le nouveau champion du classement illustre parfaitement cette tendance. Le cluster Titan, développé par Cray pour les laboratoires du département de l’énergie à Oak Ridge, embarque ainsi plus de 299 000 cœurs processeurs Opteron et 18 688 GPU Nvidia, pour atteindre 17, 59 Petaflops au benchmark LinPack.
NVidia dévoile enfin sa nouvelle génération d'accélérateurs Tesla
Le Tesla K20 de NVidia
Fort de cette référence, Nvidia a profité du salon pour dévoiler sa dernière génération de cartes accélératrices, les Tesla K20, basées sur le processeur « Kepler » GK110. Le Tesla K20 peut se targuer de contribuer à la performance de Titan, puisque le cluster comporte plus de 18 000 accélérateurs de dernière génération de Nvidia. La gamme K20 se compose de deux cartes, les K20 et K20X. Ce dernier modèle, le haut de gamme, affiche une performance de 3,95 téraflops en calcul à virgule flottante en mode simple précision, et une performance de 1,31 téraflops en mode double précision. Le Tesla K20 se « contente » de 3,52 téraflops en simple précision et de 1,17 téraflops en double précision.
La différence provient essentiellement du nombre de cœurs actifs et de la fréquence. Le Tesla K20 dispose ainsi de 2 496 cœurs CUDA cadencés à 706 MHz et de 5 Go de mémoire GDDR5 à 5,2 GHz, contre 2 688 cœurs CUDA cadencés à 732 MHz et 6Go de mémoire GDDR5 à 5.2GHz pour le K20X. Nvidia indique avoir déjà livré pour plus de 30 petaflops de performance au cours des 30 derniers jours, dont la plus grande partie est sans doute allée à Oak Ridge. Mais Nvidia ne cible pas que les grands clusters avec le K20.
Selon la société, plus de 200 applications commerciales sont aujourd’hui optimisées pour ses GPU soit 60% de plus que l’an passé. Aujourd'hui, plus de 200 applications logicielles tirent profit de l’accélération de calcul sur GPU, ce qui représente une augmentation de 60 % en moins d’un an. Nvidia revendique ainsi des gains 18 fois supérieurs avec Matlab ou avec Chroma et des gains de l’ordre de 10,5 fois avec Specfem3D, lorsque le K20 est couplé à des systèmes Xeon « Sandy Bridge » d’Intel.
AMD se rappelle au bon souvenir de NVidia
La carte FirePro S10000 d'AMD
Nvidia n’est toutefois pas le seul acteur du marché des GPU. AMD a ainsi profité de Supercomputing 2012 pour se rappeler à son bon souvenir en dévoilant la carte FirePro S10000. Comme les cartes graphiques Radeon HD 7870 et 7850, le FirePro S10 000 s’appuie sur les GPU « Tahiti » d’AMD. Toutefois ces GPU voient leur fréquence réduite à 825 MHz pour limiter leur consommation. Individuellement, les GPU « Tahiti » sont moins performants qu’une puce Kepler mais les deux puces couplées ensemble sur une même carte affichent des performances détonantes. AMD revendique ainsi 5,91 téraflops en simple précision et 1,48 téraflops en double précision, soit bien plus que les accélérateurs K20 et K20X.
Cela ne doit rien au hasard : la carte FirePro S9000, équipée d’un unique GPU « Tahiti » offrait déjà des performances loin d’être ridicules avec 3,23 téraflops en simple précision et 806 Gigaflops en double précision. Pour mémoire, chaque GPU AMD dispose de 1 792 stream processors (ou cœurs) et est appairé à un bloc de mémoire GDDR5 via un bus capable de supporter une bande passante de 240 Go/s.
Cette performance a toutefois un prix : La FirePro S10000, même avec la réduction de la fréquence mémoire et GPU, affiche un TDP de 375 W (contre 225 pour le S9000). Par comparaison, le K20X affiche un TDP de 235 W et le K20 un TDP de 225 W. Si Nvidia ne communique pas sur les prix, le K20 devrait, selon des revendeurs, coûter aux environ de 3 200 $ et le K20X aux environs de 4 000 $, des tarifs à comparer aux 2 499 $ du FirePro S9000 et aux 3 599 $ du FirePro S10000. L’écart de performance entre AMD et Nvidia n’est sans doute pas aussi grand que ce qu’espérait Nvidia, qui ciblait à l’origine une performance en double précision de l’ordre de 1,5 téraflops.
La complexité de la puce Kepler GK110 (près de 7 milliards de transistors) a sans doute amené la firme à abaisser sa fréquence de fonctionnement en attendant une éventuelle amélioration des processus de fabrication de TSMC (qui fond la puce en 28nm pour Nvidia). Les Tesla K20 restent donc sous la menace des FirePro d’AMD et des Xeon Phi d’Intel d’un point de vue performances. Heureusement pour Nvidia, le travail de fond fait autour de l’évangélisation de Cuda paie et fait que nombre d’applications sont avant tout optimisées pour ses GPU. La partie est toutefois loin d’être terminée, avec un AMD de nouveau compétitif et un Intel bien décidé à être très agressif sur les prix…