Cet article fait partie de notre guide: Le grand guide de l’Oracle CloudWorld 2023

Cloud : Oracle met à jour l’infrastructure d’OCI avec des puces dernier cri

Il y aura désormais dans le cloud public d’Oracle des instances physiques dédiées de GPU Nvidia H100 et L40S, mais aussi des instances ARM pouvant grimper jusqu’à 320 cœurs.

Oracle a profité de son salon CloudWorld 2023 qui se tient cette semaine à Las Vegas pour dévoiler de nouveaux services d’infrastructure sur son cloud OCI. Il sera désormais possible de louer des instances physiques surpuissantes en IA qui sont motorisées par des GPUs Nvidia H100 ou L40S. Ainsi que des instances virtuelles ou physiques très économiques basées sur des processeurs ARM AmpereOne d’Ampere.

Les instances L40S et AmpereOne seront disponibles dès le début de l’année prochaine. Tandis que les instances H100 devraient arriver sous quelques jours, peut-être quelques semaines, à peine.

L’infrastructure de tous ces nouveaux services, ainsi que celle de tous les services déjà existants sur OCI est à présent disponible, préconfigurée, à la vente pour des intégrateurs tiers. L’enjeu de ce programme commercial, baptisé Oracle Alloy, est de permettre à des prestataires de proposer à leurs clients un cloud privé qui mime OCI. Oracle leur fournit même tous les outils de facturation, de monitoring et de relation client nécessaires.

« Notre programme Alloy est unique sur le marché du cloud. En permettant à des intégrateurs d’héberger notre infrastructure, nous leur permettons de proposer nos services de la manière la plus adaptée aux cas d’usage de leurs clients », défend Leo Leung, directeur Produits & Stratégie chez Oracle, lors d’un entretien avec LeMagIT.

« Accessoirement, cela étend la présence des services OCI, ce qui nous permet de nous targuer d’être l’hyperscaler dont les services ont le plus de points de présence dans le monde », ajoute-t-il.

Selon le décompte d’Oracle, OCI serait ainsi présent dans 64 régions et proposerait 114 services d’infrastructure à plus de 22 000 clients.

Des instances privées ARM avec 320 cœurs

Sur scène, Clay Magouyrk (à droite sur la photo ci-dessus), le directeur d’Oracle responsable du développement commercial d’OCI, déborde quant à lui d’enthousiasme pour les nouvelles infrastructures AmpereOne : « Avec le processeur AmpereOne, nous proposons des instances qui battent tous les records en termes de nombre de cœurs de CPU : jusqu’à 320 cœurs pour une instance physique, dédiée, et jusqu’à 156 cœurs pour une machine virtuelle », lance-t-il.

Selon lui, ces instances, baptisées A2, représenteraient le meilleur rapport performances/prix pour des applicatifs communs : des serveurs web, du transcodage vidéo ou, même, de l’inférence (décodage et traitement des requêtes utilisateurs formulées en langage courant) dans les applications de type ChatGPT.

« Le nombre très élevé de cœurs possibles signifie une densité sans précédent dans nos datacenters OCI, dont une facture énergétique bien moindre qui se répercute sur le prix final que paient nos clients », ajoute-t-il, sans toutefois partager de tarifs.

OCI proposait déjà des instances A1 basées sur des processeurs ARM d’Ampere. Il s’agissait jusque-là du modèle Altra à 3 GHz, doté de 80 cœurs par puce, gravé avec une précision de 7 nm et basé sur l’architecture Neoverse N1 (jeu d’instruction ArmV8), qu’ARM a mise au point pour les serveurs.

Le nouveau processeur AmpereOne, cette fois-ci basé sur l’architecture Neoverse N2 d’ARM (jeu d’instruction ArmV9), peut embarquer jusqu’à 192 cœurs gravés en 5 nm, quoique Oracle semble avoir opté pour la version à 160 cœurs dans ses instances physiques dédiées. En toute logique, ces instances physiques sont pourvues de deux processeurs. LeMagIT suppose que le même type de machine physique sert à exécuter les VMs ARM, avec quatre cœurs par puce qui seraient dédiés à l’hyperviseur et autres fonctions d’entrée-sortie.

Fonctionnant toujours à 3 GHz, l’AmpereOne serait 40 % plus rapide dans l’exécution des codes écrits pour son prédécesseur (soit sans l’optimisation du nouveau jeu d’instruction). La raison est double. D’une part, les caches sont plus grands (2 Mo de cache L2 par cœur et 64 Mo de cache L3 pour l’ensemble de la puce). D’autre part, tous les cœurs sont gravés sur le même circuit, alors que, sur l’Altra, deux circuits de 40 cœurs chacun étaient connectés via des liens qui pouvaient générer de la latence.

Succès annoncé pour les instances privées Nvidia

« Les instances AmpereOne sont exceptionnelles. Pour autant, je pense que ce sont les instances Nvidia qui vont amener le plus d’entreprises sur OCI », reprend Leo Leung. Il précise d’ailleurs qu’Oracle s’inquiète plus d’avoir suffisamment de GPUs Nvidia à mettre en service sur OCI que de processeurs AmpereOne. Les premiers sont fabriqués en grande quantité par Nvidia, mais la demande du marché est très élevée, du fait des projets d’IA qui pullulent actuellement à tous les niveaux. Les seconds ne sont pour l’heure achetés que par des hyperscalers. Et encore, uniquement par OCI et GCP.

Selon Leo Leung, les projets d’IA se développent si rapidement que le marché aurait déjà trouvé sa segmentation. Les instances à base de cartes GPU H100, les plus puissantes du marché, aux dires d’Oracle, serviront aux grandes entreprises qui veulent entraîner des modèles sur des masses importantes de données.

Les instances à base de cartes L40S sont plutôt destinées aux entreprises qui proposent des services d’inférence, c’est-à-dire des interfaces interrogeables avec du langage courant pour générer du texte ou des images à partir des modèles entraînés par les grands comptes.

« Concernant les instances H100, nous avons la capacité de les regrouper en un super cluster de milliers de nœuds de calcul. Les entreprises qui utiliseront ces supers clusters sont celles qui, demain, feront le commerce de modèles d’IA, ce sont les quelques entreprises qui développent littéralement aujourd’hui l’IA d’entreprise », explique Leo Leung.

« Mais si l’on raisonne en quantité de clients, nous pensons que le gros du marché est sur l’inférence, sur des applications vendues par des éditeurs pour faire du back-office intelligent, pour générer automatiquement d’autres applications sans écrire de code, pour générer de la vidéo. Ces applications qui tireront parti de notre infrastructure pour mettre en œuvre le modèle. »

Des GPUs Nvidia qui communiquent sur un réseau Ethernet RDMA

Oracle se félicite que Nvidia propose à ses clients ses logiciels AI Enterprise et DGX Cloud sous forme de services dans OCI. Le premier est une suite de modèles prédéfinis et de frameworks pour en entraîner d’autres. Le second sert à optimiser les clusters de calcul. Selon Leo Leung, les modèles prêts à l’inférence que propose ici Nvidia auraient été calculés depuis des clusters d’OCI.

« Sur OCI, ce sont nos serveurs équipés de GPUs Nvidia qui communiquent sur notre réseau Ethernet RDMA. »
Leo LeungDirecteur Produits & Stratégie, Oracle

« Nous avons un partenariat privilégié avec Nvidia. Nous sommes les seuls à proposer leurs services sur des instances physiques. Et il y a une raison technique à cela. Dans l’infrastructure OCI, les machines sont interconnectées avec un réseau Ethernet spécial qui fonctionne en RDMA et qui remonte à l’époque où nous avons conçu notre offre Exadata à partir d’un cluster de nœuds interconnectés », précise notre interlocuteur.

Dans les faits, OCI repose sur une infrastructure réseau RoCE, ou RDMA-over-Converged Ethernet. Dans celle-ci, les données passent directement de la mémoire à la carte réseau, où elles sont légèrement étiquetées avec un code de routage que seuls des switches également Converged Ethernet sont capables de comprendre. Ce mécanisme permettrait d’augmenter significativement la bande passante par rapport à un réseau Ethernet classique.

« À ce propos, il est important de signaler que l’infrastructure Nvidia déployée sur OCI n’est pas constituée des serveurs DGX de Nvidia. Les configurations DGX utilisent Infiniband pour communiquer. Sur OCI, ce sont nos serveurs équipés de GPUs Nvidia qui communiquent sur notre réseau Ethernet RDMA. »

« Pour le client, il n’y aura pas de différence de vitesse. En revanche, passer par notre réseau Ethernet RDMA nous permet de gérer l’ensemble des connexions de manière uniforme, donc de maîtriser entièrement le routage du trafic. Et c’est ce qui fait qu’OCI est si efficace », conclut Leo Leung.

 

Pour approfondir sur IaaS