agsandrew - stock.adobe.com
Google survitamine l’infrastructure du cloud GCP
Avec une forte participation d’Intel, Google a mis au point pour GCP une nouvelle génération de serveurs équipés de puces d’accélérations IPU pour le réseau et le stockage.
À l’occasion de son événement Google Next, Google a dévoilé les détails de la nouvelle infrastructure qui motorise sa toute dernière génération de machines virtuelles C3 sur le cloud GCP. Faite de serveurs et de baies de stockage bardées de puces d’accélération, cette infrastructure permettrait notamment aux VMs C3 de gérer trois fois plus de paquets TCP/IP en réseau et d’accéder au stockage 80 % plus vite.
Les serveurs de cette nouvelle infrastructure sont équipés des dernières versions de processeurs Intel Xeon, les Sapphire Rapids, et de cartes réseau « Titanium », un modèle spécialement codéveloppé avec Intel, sur la base de ses puces d’accélération Ethernet IPU.
Les cartes Titanium déchargent le processeur du serveur de toutes les fonctions de chiffrement, d’encodage et de décodage des données en paquets TCP/IP, ou encore de gestion des protocoles de stockage. La vitesse est de 200 Gbit/s par carte.
Un accès accéléré au stockage
Selon Google, la puce IPU peut exécuter encore d’autres traitements sur les données et, mieux, partager l’exécution de ces traitements avec les autres IPUs du réseau. Il en va ainsi des fonctions du nouveau système de stockage en mode bloc Hyperdisk, lequel réplique des blocs de données sur plusieurs tiroirs de SSD NVMe dans un cluster.
Dans le même ordre d’idée, la puce IPU accélère le fonctionnement du système de stockage en mode fichier Colossus, lequel succède à GFS. Hyperdisk et Colossus vont de pair avec le système de load balancing Borg, spécialement adapté pour gérer Kubernetes. Ensemble, les systèmes Hyperdisk, Colossus et Borg constituent l’infrastructure logicielle des services de stockage FireStore, Cloud SQL, FileStore et Cloud Storage que propose GCP.
L’ingénieur logiciel Aaron Sheldon, de l’éditeur Snap, se dit enthousiasmé par les premiers tests qu’il a pu faire : « nous avons été heureux d’observer une augmentation de 20 % des performances par rapport à la génération actuelle de VMs C2 sur GCP, lors des tests effectués avec l’une de nos principales applications. Cette amélioration des performances doit nous permettre d’améliorer l’expérience de nos utilisateurs et aussi la rentabilité de nos applications. »
Même sentiment chez Parallel Works, l’éditeur d’une plateforme de prévision météo hébergée sur GCP : « selon nos premiers tests, nous estimons que l’exécution de nos logiciels sur des clusters de VMs C3 va nous permettre de calculer des prévisions météorologiques jusqu’à dix fois plus rapidement pour un coût à peu près équivalent », dit son PDG, Michael Wilde.
Shane Emswiler, directeur produit de l’éditeur Ansys, est plus précis : « nous avons observé des performances multipliées par trois sur nos applications phares, comparativement aux VMs C2. La raison est double : la bande passante mémoire des VMs C3 est meilleure et leur latence réseau plus faible. »
Accessoirement, les serveurs de ces clusters disposent d’une puce de protection « Titan », toujours codéveloppée par Intel. Celle-ci forcerait le firmware des machines physiques et virtuelles à ne booter que sur des images sécurisées. Elle fournirait aussi une clé de chiffrement unique pour crypter en RAM les données en cours de traitement.
En partenariat avec Intel pour les fonctions de pointe
Des versions plus gonflées de ces serveurs vont également servir à proposer de nouvelles VMs H3, orientées supercalcul. Elles offriront jusqu’à 88 cœurs et 352 Go de RAM, contre un maximum de 60 cœurs et 240 Go de RAM pour les C3. D’une manière générale, les premiers centres de recherche qui ont pu mener des tests notent des performances par cœur multipliées par 2,5 ou par 3, comparativement aux VMs C2, seule offre précédemment disponible sur GCP pour le supercalcul.
L’avantage des VMs H3, surtout, est qu’elles fonctionneront de pair avec le nouveau système de stockage objet hautement parallélisé Parallelstore. Basé sur le système de stockage Open source DAOS mis au point chez Intel, Parallelstore se veut optimisé pour les écritures sur les SSDs NVMe et les mémoires non volatiles. Il a par ailleurs l’avantage d’intégrer un système de métadonnées qui facilite le partage des contenus à la fois en mode fichiers (SMB, NFS) et en mode objet.
Toutefois, les VMs H3 seront destinées au supercalcul traditionnel. Concernant l’IA générative, Google propose de plutôt se tourner vers ses nouvelles VMs A3, équipées de cartes GPU Nvidia H100. Toujours basées sur les mêmes processeurs Xeon Sapphire Rapids d’Intel, ces VMs équipées de 2 To de RAM peuvent accéder à 8 GPUs, avec une bande passante entre eux de 3,6 To/s.
On notera que les services d’IA que Google propose lui-même seront plutôt basés sur des TPU v5e. Il s’agit de la dernière version d’une puce d’accélération pour le Machine Learning qu’il est possible de monter en grappe de 256 unités interconnectées par un réseau optique, lui aussi de fabrication Intel.
Également des infrastructures AMD Epyc et ARM
D’ici à la fin septembre, GCP devrait également proposer à son catalogue de nouvelles VMs C3D et C3A, respectivement basées sur des serveurs à base de processeurs Epyc d’AMD et AmpereOne (ARM) d’Ampere.
Les VMs C3D, qui succéderont aux VMs N2D, seront positionnées sur les configurations les plus importantes, avec jusqu’à 360 vCPU et 2,8 To de RAM DDR5. Le directeur technologique de l’agence Verve Group, Ken Snider, observe une diminution de l’usage des processeurs de 44 % par rapport aux VMs N2D pour servir un nombre similaire de requêtes. « Cela signifie que nous allons pouvoir baisser nos coûts, car nous exécuterons nos traitements sur un nombre de serveurs plus réduit. »
Les VMs C3A, qui succèdent aux VMs T2A, ciblent quant à elles le meilleur rapport performance/prix, Google estimant qu’elles sont 40 % plus rentables que les autres VMs basées sur des serveurs x86. Les configurations proposées grimperont à 80 vCPUs et des cartes réseau 100 Gbit/s. Leur infrastructure servirait déjà de base à tous les services de GCP liés à Kubernetes : GKE, mais aussi Dataflow, Cloud Batch et Dataproc.
Lors de l’événement Google Next, personne n’avait encore pu mener de tests sur les nouvelles VMs C3A, mais Cyril Corbon, DevOps chez Dailymotion, se dit déjà conquis par les précédentes T2A qui, selon lui, « croissent en performances de manière bien plus linéaire que les configurations x86. »