OCI Supercluster : Oracle veut mettre sur pied un HPC de 2,4 ZettaFLOPS
Lors de CloudWorld 2024, Oracle a annoncé l’extension de son partenariat avec Nvidia afin de développer davantage de « superclusters ». Ces HPC dédiés à l’IA embarquent des dizaines voire une centaine de milliers de GPU réclamant aux équipes d’Oracle de revoir en profondeur les infrastructures réseaux, énergétiques et de refroidissement des data centers.
Avec OCI Supercluster, Oracle assure qu’il sera le premier à proposer un HPC doté de 2,4 Zettaflops de puissance. Comment ? En interconnectant 131 072 GPU Nvidia B200 sur l’architecture Blackwell. Ils seront déployés d’instances bare-metal. Oracle déploiera des serveurs HGX B200, doté de huit GPU pour un total de 1440 Go de VRAM HBM3e (192 par GPU), 30,7 To de stockage sur SSD NVMe local et un réseau doté d’une vitesse de 400 Go/seconde.
Avec Nvidia, il a également annoncé la disponibilité prochaine des GB200 NVL72 reposant sur l’architecture Grace Blackwell. Ces racks équipés en refroidissement liquide (18 nœuds par rack) interconnecteront 36 puces Grace et 72 GPU B200 pour un total de 13,5 To de VRAM HBM3e, 17 To de RAM, un réseau d’une capacité de 7200 Go/s et une capacité 553 pétaoctets de stockage NVMe local. Un seul domaine NVLINK offrirait une bande passante agrégée de 129,6 To/s. Les GB200 seront mis à contribution pour former un autre supercluster de plus de 100 000 GPU, avancent Oracle et Nvidia.
Ces clusters seront interconnectés en RoCEv2 à l’aide de carte NICS Nvidia ConnectX-7 et X-8 ou de switch Nvidia Quantum 2. Oracle affirme que les GPU Blackwell sortiront des usines des partenaires de Nvidia au cours de la première moitié de l’année, mais se garde bien de donner de date de disponibilité. De fait, Nvidia a reconnu des retards et prévoit la livraison des premières grosses commandes dès le premier trimestre 2025. S’ils ne sont pas foncièrement inquiets, les analystes financiers ont toutefois suggéré au géant fabless de mieux informer ses clients et investisseurs.
En revanche, Oracle prend déjà les commandes pour les instances HGX B200 et GB200.
La situation est plus claire pour les Nvidia H200, basée – comme les H100 – sur l’architecture Hopper. Là encore, Oracle proposera des instances bare-metal HGX H200 pour un total de 1 128 Go de VRAM HBM3e (141 Go par GPU), 30,7 To de stockage local NVMe et une bande passante de 200 Go/s. Ces cartes seront mises en musique dans un supercluster incluant 65 536 GPU doté d’une puissance maximale de 260 ExaFLOPS. Il devrait être disponible avant la fin de l’année.
A100, H100, L40S : trois superclusters disponibles
Oracle avait déjà mis en place un supercluster de 32 768 GPU Nvidia A100 (80 Go de VRAM) et un autre doté de 16 384 H100.
Il en annonce un dernier, entré en disponibilité générale : il peut être doté de 3840 GPU Nvidia L40S, à partir d’instances bare-metal équipées de 4 cartes (48 Go de VRAM GDDR6, 192 au total), de 7,7 To de stockage SSD NVMe et d’une bande passante de 200 Go/s. Au vu des technologies qu’elle embarque, la L40S est davantage adaptée à l’inférence de modèles d’IA plutôt qu’à leur entraînement.
Oracle a fait en sorte que les instances bare-metal L40S prennent en charge OCI Kubernetes Engine (OKE), sa distribution de l’orchestrateur de conteneurs.
Oracle ne fournit pas seulement du stockage local. Il assure également le stockage de grands volumes de données à travers le réseau vers des machines dédiées.
Il a présenté la disponibilité générale des serveurs OCI File Storage « haute performance » (HPMT) offrant 20,40 ou 80 Go/sec de bande passante. Ce système de stockage FSS (basé sur le protocole NFSv3) peut être raccordé aux serveurs bare-metal embarquant les A100 (40 et 80 Go de VRAM) et H100.
Les machines accueillant les GPU H200, B200 et GHB200 pourront être « prochainement » rattachés à un système de fichiers parallèle Lustre, offrant une bande passante de 8 Go/s par téraoctet.
Les instances L40S sont, elles, connectées à des instances File Storage ou le système de stockage objet maison d’Oracle.
C’est aussi le cas pour les VM et les instances bare-metal équipées de GPU A10 (1,2 ou 4 GPU A10, 24 Go de VRAM chacune). En tout petit, Oracle précise qu’il fournit encore, au besoin, des machines ou VM propulsés par les Nvidia P100 et V100.
Ces superclusters s’adressent plus particulièrement aux fournisseurs de grands modèles de langage et toutes entreprises qui comptent entraîner des LLM sur de gros volumes de données.
Le stockage en réseau ne convient pas à tous les usages. « Concernant les exigences de stockage pour les charges de travail GPU, cela dépend du type de charge, inférence ou entraînement. L’entraînement est plus intensif en matière de volume de données sollicité. L’inférence ne l’est pas », précise Mahesh Thiagarajan EVP, Oracle Cloud Infrastructure chez Oracle.
En matière d’entraînement, le porte-parole d’Oracle distingue trois segments de clients. Il y a d’abord les « débutants », qui manipulent de petits volumes de données. Ils ont besoin de performances modérées avec un débit de lecture d’environ 1 To/s. Les utilisateurs intermédiaires travaillent avec des volumes de données à l’échelle du pétaoctet (par exemple des données textuelles issues d’internet) et ont besoin de performances élevées. « Les clusters GPU doivent offrir un débit de lecture 8 à 10 fois supérieur ». Enfin, les utilisateurs avancés traitent des centaines de pétaoctets de données multimodales (images, vidéo). Ils sont les cibles de la solution basée sur Lustre. Par ailleurs, Mahesh Thiagarajan précise qu’un mécanisme de tiering automatique permet de rapatrier des données sur des espaces de stockage objet, moins coûteux.
Une activité déjà lucrative
À titre de comparaison, AWS a présenté en décembre 2023 un ultracluster pouvant réunir jusqu’à 20 000 GPU H100 sur la base de 2500 instances p5.48xlarge (192, vCPU, 2 To de RAM, 8 GPU H100). Un autre ultracluster d’AWS peut embarquer jusqu’à 10 000 GPU A100. Avec Azure AI Infrastructure, Microsoft proposerait un HPC comptabilisant 14 400 GPU H100.
Ces superclusters ont-ils une véritable utilité ou est-ce un simple outil marketing, un concours bien connu de la gent masculine ? « Je ne crois pas avoir d’argent pour fabriquer une voiture que je ne peux pas vendre », répond Mahesh Thiagarajan.
Mahesh ThiagarajanEVP, Oracle Cloud Infrastructure, Oracle
« Notre partenariat avec Nvidia est assez solide, donc nous avons un très bon accès aux GPU. Pour les clients qui souhaitent faire de l’inférence et du fine-tuning, il n’y a vraiment pas de restrictions pour le moment », assure Greg Pavlik, EVP Oracle Cloud Infrastructure, Data & AI chez Oracle. « Si vous travaillez dans le domaine de l’entraînement de modèles et que vous avez besoin de milliers de GPU pour construire des modèles, nous sommes ouverts », poursuit-il. « Nous avons également une capacité énorme à ce niveau, mais cela devient un peu plus complexe en raison du taux de remplissage de notre carnet de commandes. L’activité Supercluster a tout simplement rencontré un grand succès ».
Au premier trimestre fiscal 2025, Oracle a signé 42 contrats « cloud GPU additionnel » pour un montant total de 3 milliards de dollars. Zoom, xAI (Grok 1 et 2), Cohere, Palantir, Databricks, Together.ai, l’université de Stanford, ou encore Altair sont des utilisateurs de ces infrastructures axées sur l’IA.
Réseau, puissance électrique, refroidissement : les défis engendrés par les GPU
Malgré ces réussites, ce n’est pas de tout repos pour les équipes techniques d’Oracle.
Clay MagouyrkEVP, développement OCI, Oracle
« Il est extrêmement difficile de créer et d’exploiter les plus grands clusters de GPU », reconnaît Clay Magouyrk, EVP du développement d’OCI chez Oracle. « Cela sollicite toutes les unités d’une R&D responsable de la conception d’un data center ».
« Il est nécessaire que les clusters soient physiquement les uns à côté des autres. Cela réclame une latence très basse et une bande passante élevée pour chaque composant utilisé dans la gestion de la charge de travail », poursuit-il.
« Ces exigences créent des besoins en aval qui se répercutent ensuite sur tous les aspects de l’infrastructure. Il faut repenser la mise en réseau, la production d’énergie, l’outillage, la conception du matériel, etc. ».
Ainsi, pour déployer ses superclusters, Oracle aurait installé 950 000 câbles réseau, 114 kilomètres de fibre, 655 000 connecteurs pour une bande passante agrégée de 104 Petaoctets/s. Ce réseau serait capable de gérer 310 millions de milliards de paquets par seconde sans perte.
En outre, jusqu’à récemment, un rack standard exigeait une puissance comprise entre 10 et 20 kW, rappelle-t-il.
Selon Nvidia, un serveur HGX H100 ou H200 consomme au maximum 10,2 kilowatts (kW). Cela veut dire que le supercluster de plus de 65 536 GPU H200 d’Oracle consommera à pleine puissance 83 mégawatts. C’est la production annuelle de certaines usines solaires ou éoliennes. La consommation d’une ville de 50 à 100 000 habitants.
« Maintenant, vous avez des GPU qui individuellement représentent 1 millier de watts à refroidir », indique Clay Magouyrk, en évoquant sans le nommer le GPU B200. « D’où le passage au refroidissement liquide. Là où l’on parlait de 10 à 20 kW par rack, l’on évoque désormais 70 à 120 kW, à cause de la densité de GPU par baie ».
Clay MagouyrkEVP, développement d’OCI, Oracle
Il faut donc davantage de systèmes de refroidissement liquide dans le data center tout en maintenant la ventilation en place.
Point positif, les racks équipés de GPU « demandent moins d’espaces au sol », mais cela est contrebalancé par la puissance électrique nécessaire, qui est bien plus importante, signale-t-il.
Selon Oracle, quand un data center traditionnel occupe 14 000 mètres carrés (1,4 ha), il consomme 30 mégawatts. Un data center doté de racks GPU peut tenir dans 4 600 m², mais réclamer 50 mégawatts de puissance électrique.
Selon Larry Ellison, président du conseil d’administration et CTO d’Oracle, le fournisseur comptabilisera bientôt 162 data centers. « Le plus grand de ces centres de données aura une capacité de 800 mégawatts et contiendra des hectares de clusters de GPU NVIDIA pour l’entraînement de modèles d’IA à grande échelle », a-t-il promis lors de la présentation des résultats du 1er trimestre fiscal 2025. C’est la moitié de la puissance de l’EPR de Flamanville.