Avec HFA, Pavilion Data lance le bolide des baies de stockage
La startup proposera d’ici à la rentrée prochaine une baie 4U qui contient 72 SSD et 20 contrôleurs. Multifonction, elle atteindrait 120 Go/s en mode SAN, 90 Go/s en NAS et 80 Go/s en objet.
Un maximum de performances dans un minimum d’espace. Tel est le leitmotiv de Pavilion Data, une startup du stockage qui se targue d’avoir construit le bolide des baies de disques. Sa machine HFA (Hyper-parallel Flash Array) est un module rack de seulement 4U de haut qui intègre jusqu’à 72 SSD NVMe. Surtout, ceux-ci sont pilotés par… vingt contrôleurs. Au lieu des deux ou quatre que l’on trouve habituellement dans un tel format.
« Nous proposons tous les protocoles de stockage sur notre machine. Si l’on compare la puissance délivrée par U, nous avons 7 à 50 fois plus d’IOPS, 7 à 10 fois plus de Go/s et 2 à 7 fois plus de capacité en mode bloc que Dell EMC, NetAPP et Pure Storage. Sur les fichiers, nos accès en lecture sont 7 fois plus rapides et nos écritures sont 12 fois plus rapides que celles d’Isilon et Vast Data, qui se revendiquent les champions du NAS. Sur le mode objet, enfin, nos lectures sont près de 6 fois plus rapides et nos écritures près de 9 fois plus rapides que celles de MinIO ou OpenIO », lance Costa Hasapopoulos, en charge des partenariats chez Pavilion.
Les chiffres de la baie de disques de Pavilion décoiffent. 120 Go/s, 20 millions d’IOPS et une latence de 100 microsecondes en lecture pour le mode bloc. Le PowerMax, la baie haut de gamme de Dell EMC, aurait besoin d’un cluster de 80U – vingt fois plus volumineux – pour atteindre péniblement 15 millions d’IOPS. La baie AF800 de NetApp atteindrait 11,4 millions d’IOPS avec 48U, soit douze fois plus imposante. Pavilion le reconnaît : les baies de ses concurrents dépassent les 300 Go/s et offrent respectivement 3 et 4,4 Po de capacité, contre seulement 1,1 Po « utile » sur la HFA. Il n’empêche, la startup reste meilleure en termes de densité, selon ces exemples qu’elle expose elle-même.
Et ce n’est pas fini. 90 Go/s, 5 millions d’IOPS et une latence de 25 microsecondes, cette fois-ci sur les écritures en mode bloc. 90 Go/s 4,5 millions d’IOPS et une latence de 170 microsecondes sur les lectures en mode fichier. En 4U, La FlashBlade de PureStorage et l’Isilon de Dell EMC atteindraient 15 Go/s – six fois moins. 56 Go/s, 2,5 millions d’IOPS, une latence de 95 microsecondes en écriture sur les fichiers. Et puis 80 Go/s et 35 Go/s, respectivement en lecture et en écriture pour le mode objets.
72 disques et 20 contrôleurs dans 4U
L’intérieur de la machine est orignal. Tous les éléments sont connectés à un contrôleur PCIe central – une sorte de switch réseau, mais pour des signaux PCIe – qui offre une bande passante totale de 6,4 Tbit/s. Les 72 SSD au format U.2 sont rangés, debout, dans la moitié avant, en deux blocs de 4 x 9 unités NVMe. Rencontrée par LeMagIT lors d’une réunion en ligne organisée dans le cadre de l’IT Press Tour, un événement qui consiste à présenter à la presse les dernières innovations en matière de stockage, la startup ne précisera pas quels modèles de SSD NVMe elle a choisis.
Tout juste saura-ton qu’il peut s’agir soit de NAND TLC – donc au mieux 15,36 To avec le prochain WD Ultrastar DC SN840, mais plus vraisemblablement 7,68 To avec un modèle actuellement disponible – soit de « SCM », c’est-à-dire le plus souvent des modules 3D XPoint d’Intel ou Micron qui grimpent, au mieux, à 512 Go. Le 1,1 Po de capacité utilisable affiché serait atteint en optimisant la taille des données, par compression ou déduplication, à partir d’une capacité brute a priori plus faible.
Dans la moitié arrière de la machine, deux blocs de cinq cartes de contrôle sont disposés de part et d’autre de deux cartes d’administration. Ces cartes de contrôle contiennent deux processeurs Xeon, chacun avec sa propre barrette de RAM, son propre connecteur PCIe vers le switch central et ses deux ports Ethernet 100 Gbit/s. On ne saura pas non plus ni de quels Xeon il s’agit ni de combien de RAM ils disposent.
Chaque processeur est un contrôleur de stockage : il prend en charge certains disques et les présente aux serveurs externes dans un mode précis au travers de ses deux ports réseau. Il peut s’agir d’un mode bloc (fonction de SAN) via les protocoles NVMe-over-RoCE, NVMe-over-TCP, NVMe-over-Infiniband ou encore iSCSI. Il peut aussi s’agir d’un mode NAS, mais uniquement au travers du protocole NFS ; le SMB viendra peut-être, à terme. Il peut enfin s’agir d’un mode objet, en S3.
Une baie multifonction plutôt vendue pour une fonction à la fois
Les si bonnes performances citées plus haut concernent les cas où les 20 Xeon travaillent ensemble pour présenter au réseau le même mode de stockage sur les 72 disques. Néanmoins, comme son concurrent Vast Data, Pavilion indique qu’il vendra éventuellement sa baie HFA comme un modèle multifonction : les entreprises s’en serviraient alors à la fois comme SAN, comme NAS et comme baie objet.
Cela dit, LeMagIt a toutes les raisons de croire que ce ne sera pas le cas. Selon nous, la HFA sera soit proposée sous la forme d’un seul volume en mode bloc pour une base de données critique, soit uniquement comme NAS pour les accès intensifs de VMware et/ou Kubernetes, soit encore comme un entrepôt objet très rapide pour un Data lake. Mais jamais pour faire les trois à la fois.
D’abord, la startup ne communique pas sur les performances par contrôleur. Il est de fait compliqué d’estimer les vitesses qu’aurait chaque subdivision de la baie HFA. Mais on devine qu’elles seraient subitement moins épatantes au regard de la concurrence.
Ensuite, il n’est pas encore possible de stocker des données en SAN via un contrôleur, puis les lire en NAS ou en objet via un autre. Elles devront être dupliquées manuellement par l’administrateur, depuis les disques du premier contrôleur vers ceux du second. Ce qui laisserait présager autant une perte de temps pour les équipes qu’un gâchis de capacité sur les disques.
En fait, la baie HFA peut – être considérée comme une baie SAN dans la mesure où des fonctions s’exécutent de manière transversale entre les contrôleurs : Thin Provisionning, RAID, snapshots et chiffrement. En revanche, si on la subdivise en différents systèmes de stockage, chacun avec ses propres contrôleurs, la baie s’apparente plutôt à un amalgame de DAS, c’est-à-dire de disques externes dédiés à un serveur. D’ailleurs, les contrôleurs ayant chacun des ports Ethernet dédiés à l’arrière de la machine, on devine que le branchement des serveurs au bon volume de stockage, via le bon port Ethernet parmi les 40 possibles, virerait rapidement au casse-tête.
Tolérance de panne : surtout si tous les contrôleurs font la même chose
Enfin, lors de notre entretien, Sundar Kanthadai, l’ingénieur en chef de Pavilion, n’a pas été capable d’expliquer clairement comment serait gérée la tolérance aux pannes dans le cas d’un usage multifonction. Dans cette situation, chaque contrôleur ne peut exécuter qu’un seul mode de stockage à la fois, mais il serait possible de lui attribuer un mode de secours, sur lequel il basculerait pour prendre la relève d’un contrôleur d’un autre volume s’il tombe en panne.
Qu’adviendrait-il alors du mode de stockage que ce contrôleur devait initialement exécuter ? Sundar Kanthadai laisse entendre qu’un contrôleur ne fonctionne jamais seul et qu’il y en aurait forcément un autre pour continuer le travail initial en mode dégradé. Sauf que s’il y a toujours au moins deux contrôleurs pour prendre en charge un volume particulier, on ne voit pas bien l’intérêt d’aller en chercher un troisième : cela ne ferait que déplacer le mode dégradé vers le volume du contrôleur de secours.
Sundar Kanthadai a été autrement plus loquace pour expliquer la tolérance aux pannes des disques. Selon lui, il serait possible de mobiliser tous les contrôleurs pour reconstruire en moins de 5 minutes le RAID de 1 To de données perdues. Une belle prouesse, qui ne fonctionne que si tous les contrôleurs sont configurés pour travailler ensemble.
Faire appel à un système tiers pour les configurations en cluster
La machine correspondant à toutes ces caractéristiques devrait être livrée d’ici à la rentrée, avec la version 2.4 du système PavilionOS. Les modèles actuellement présentés aux entreprises ne disposent encore ni de ports Ethernet en 100 Gbit/s, ni du mode objet. La version 2.4 de l’OS s’accompagnera par ailleurs d’un pilote pour être administrée par une console Nagios et d’un autre pour accéder à la baie HFA en NVMe-over-RoCE depuis des serveurs Windows.
Notons que PavilionOS ne gère pas lui-même les clusters. Une entreprise peut installer plusieurs HFA sur le réseau, mais leurs contrôleurs respectifs ne sauront pas travailler ensemble pour, par exemple, étendre un volume au-delà de 1,1 Po par baie, ou pour synchroniser leurs contenus.
Selon Pavilion, cette limite n’est pas un problème dans la mesure où il suffit de confier la gestion d’un cluster en mode NAS ou objet à un système tiers. La startup aurait ainsi signé avec une entreprise des médias qui compte déployer un NAS IBM Spectrum Scale (ex-GPFS) en configurant quinze HFA pour qu’elles soient vues comme les tiroirs de disques NVMe-over-RoCE de plusieurs serveurs. Une autre compterait faire de même en reliant plusieurs HFA à un cluster d’indexeurs Splunk pour qu’elles se comportent comme un seul entrepôt objet.