Serveurs : Liqid relance les architectures composables
La startup propose une baie qui partage des extensions PCIe en réseau, via des liens en 16 Go/s cumulables. L’enjeu serait par exemple de disposer d’un pool de GPUs indépendants des serveurs.
Les architectures composables reviennent. La startup Liqid, qui planche sur ce type d’architecture depuis 2015, vient coup sur coup de lancer la commercialisation de sa plateforme et de remporter un premier contrat avec l’université de Durham (Royaume-Uni) pour son supercalculateur DiRAC.
Le principe est de réunir dans un pool de ressources des modules PCIe – accélérateurs GPU et FPGA, stockage NVMe, cartes réseaux à base de DPU – et de les partager entre plusieurs serveurs. La solution proposée par Liqid est par exemple une baie EX-4400 (4U) qui comprend en interne 20 slots PCIe 4.0 et, en externe, 16 ports optiques SFF individuellement capables de transporter des ordres PCIe à la vitesse de 16 Go/s. Ces ports peuvent être agglomérés de manière logique par groupe de deux ou quatre (respectivement 32 et 64 Go/s de bande passante) pour communiquer plus rapidement avec un serveur.
À l’autre bout des fibres optiques qui sortent des ports de l’EX-4400, une carte à insérer dans un serveur fait office de rallonge PCIe. Elle dispose elle-même de quatre ports à 16 Go/s chacun. La latence induite par ce système entre un serveur et sa carte PCIe ne serait que de 100 nanosecondes.
Liqid propose aussi une sorte de switch PCIe à 48 ports, le LQD9448 (1U), qui permet de relier plusieurs serveurs à plusieurs châssis PCIe. En plus de l’EX-4410, Liqid propose en effet les châssis d’extension LQD400x20 (20 slots PCIe supplémentaires) ou LQD400x10 (10 slots), ainsi que le LQD400x20, un tiroir de 32 SSD NVMe.
« Vous attribuez ainsi les ressources que vous souhaitez au serveur que vous souhaitez, quand vous le souhaitez. Vous pouvez par exemple remplir l’EX-4410 avec 20 cartes GPU, les attribuer individuellement à 20 serveurs, puis tous ensemble à un seul serveur. Ce n’est ni plus ni moins qu’une architecture Software-Defined, mais portée à l’échelle des bus PCIe, pas uniquement pour le réseau et le stockage », résume Sumit Puri, le directeur technique de Liqid.
Parmi les autres équipements proposés au catalogue de Liqid, on dénombre des SSD NVMe LQD3000 et LQD4500 qui s’enfichent dans un slot PCIe et qui sont respectivement dotés de 16 et 32 To de capacité, ainsi qu’un switch PCIe LQD9424 plus économique, avec seulement 24 ports.
Liqid assure par ailleurs avoir validé sur sa solution l’utilisation des GPU V100, A100, RTX et T4 de Nvidia, ainsi que celle des SSD Optane d’Intel.
Matrix, le système qui distribue les ressources PCIe
Outre le matériel, tout l’intérêt de la solution de Liqid repose surtout sur son système Liqid Matrix, qui fait office d’orchestrateur entre les serveurs et les ressources auxquelles ils accèdent. Matrix est intégré à vCenter, la console d’administration de VMware. Il permet d’attribuer telles cartes PCIe à tels nœuds physiques d’un cluster vSphere, puis, depuis les fonctions traditionnelles de vCenter, de répartir la puissance ou les capacités offertes par ces ressources PCIe entre plusieurs machines virtuelles.
« Ainsi vous configurez une certaine quantité de puissance sur un nœud et vous demandez à vCenter d’exécuter sur ce nœud la VM qui a besoin de cette puissance », résume Sumit Puri.
Il assure qu’une intégration similaire est possible avec les consoles d’administration d’OpenShift (le Kubernetes de Red Hat), d’OpenStack et de Windows Server. LeMagIT n’a cependant pas pu en voir une démonstration.
On notera cependant que Liqid propose un serveur 1U matériel pour exécuter Matrix.
Matrix permet par ailleurs de configurer des communications peer-2-peer entre chaque module PCIe. Cette caractéristique prend toute son importance avec le support de GDS, le système de Nvidia qui permet à ses GPU de lire et d’écrire leurs données directement sur des SSD NVMe. Selon des benchmarks produits par Liqid, les IOPS d’une application de calcul passeraient ainsi de 179 000 à 2,9 millions, leur bande passante de 9 à 49 Go/s et la latence de 583 microsecondes à seulement 80 quand GDS est activé grâce à un lien peer-2-peer.
Ces tests étaient effectués entre une carte GPU A100 et un SSD LQD4500 tous deux insérés dans la même baie LQD400x20.
« Grâce à ce système qui simplifie radicalement la répartition des capacités et des puissances entre vos serveurs, il devient même moins cher de déployer des GPU dans votre datacenter qu’en louer en cloud », argumente le directeur technique, en annonçant une économie de 70 %.
Outre l’exemple officiel du déploiement de produits Liqid sur le supercalculateur DiRAC, Sumit Puri confie que le français OBS aurait aussi investi dans ces solutions pour proposer sur son cloud Flexible Engine un service de GPU-as-a-Service.
Vers une démocratisation avec les prochains bus CXL
Selon Sumit Puri, le marché de Liqid devrait exploser en 2023 avec l’arrivée de slots PCIe 5.0 dans les serveurs à base d’Intel Xeon Sapphire Rapids et d’AMD Epyc Genoa.
« Pour la suite, nous misons beaucoup sur la disponibilité des bus CXL (Compute Express Link), qui, contrairement aux bus PCIe, permettent de partager aussi de la RAM entre les serveurs. Nous avons ainsi dans nos cartons une baie susceptible de partager 48 To de barrettes Optane PMM », confie-t-il.
CXL est un nouveau protocole de bus qui doit s’incarner comme une extension des bus PCIe existants (la connectique reste la même). Il a été développé initialement par Intel et il est aujourd’hui mis au point au sein d’un consortium éponyme qui regroupe à peu près tous les grands fournisseurs informatiques, dont AMD, Nvidia et ARM. Selon de nombreux observateurs, CXL a été pensé comme une alternative à Gen-Z.
Gen-Z était, en 2016, une tentative de proposer un nouveau genre de bus PCIe qui, justement, aurait permis d’implémenter des « architectures composables », où les cartes d’extension et la mémoire ne sont plus installées dans chaque serveur, mais dans des modules autonomes en réseau.
Parmi les défenseurs de Gen-Z, se trouvait HPE qui, depuis 2014, vantait les mérites de « The Machine » un nouveau concept où les serveurs seraient décomposés en modules de la taille d’un lecteur CD, chacun avec une fonction propre (RAM, CPU, Stockage, GPU, etc.) et tous communiquant en réseau. The Machine devait faire tenir un datacenter entier dans une baie de la taille d’un frigo. Il s’agissait du premier concept d’architecture composable.
Hélas, ni The Machine, ni les bus Gen-Z n’ont connu de carrière commerciale. Fin 2021, le consortium en charge de Gen-Z, dont Intel ne faisait pas partie, a conclu qu’il était plus raisonnable de donner tous ses travaux et toutes ses propriétés intellectuelles au consortium CXL.