Avec l’ESS 5000, IBM accélère les lacs de données à 50 Go/s
La nouvelle baie NAS/Objet très haut de gamme d’IBM se compose de modules de 36U avec contrôleurs Power 9 et disques durs SMR qui s’enchaînent pour grimper jusqu’à 8 milliards de Po.
IBM met à jour son catalogue de solutions de stockage dans le but de soutenir les grands projets d’infrastructure visant à analyser les données à partir d’un moteur d’intelligence artificielle. La pièce maîtresse de ces annonces est la nouvelle baie NAS/objet ESS 5000 (Elastic Storage System) dédiée à l’hébergement d’un Data lake. Elle offre un débit de de 55 Go/s et une capacité qui peut grimper jusqu’à 8 milliards de Po, ou 8 yotta-octets (8 Yo, soit 8 000 zetta-octets, ou encore 8 millions d’exa-octets).
Officiellement, cette baie ESS 5000 est censée concurrencer les gros systèmes de stockage de données Dell EMC Isilon A2000 et NetApp FAS 6000. Elle serait respectivement 4,5 et 3,2 fois plus rapide. IBM ajoute que l’Isilon ne gère que 64 Po au maximum et la FAS 6000 seulement 176 Po.
Steve McDowellAnalyste, Moor Insights & Strategy
« Sauf que l’ESS 5000 n’est pas un produit qui amènera de nouveaux clients à IBM. À ma connaissance, les seules entreprises dans le monde qui puissent avoir besoin de traiter 8 Yo de données à la vitesse de 55 Go/s par nœud, sont déjà clientes d’IBM », commente, amusé, Steve McDowell, analyste chez Moor Insights & Strategy, au micro de nos confrères de TechTarget USA.
Des disques SMR plus capacitifs, des contrôleurs Power
L’ESS 5000 existe en deux versions. La version SL est celle qui entre dans des étagères Rack standard. Dans celle-ci, chaque module de contrôle peut gérer 8,8 Po de capacité avec six tiroirs de 92 disques durs, l’ensemble étant haut de 35 U. La version SC a besoin d’une étagère rack plus profonde. Ici, chaque module de contrôle peut gérer 13,5 Po de capacité, à partir de huit tiroirs de 106 disques, ce qui représente une hauteur de 36 U.
Pour atteindre les 55 Go/s annoncés, il faudra disposer d’au moins 12 contrôleurs. Ces contrôleurs reposent sur des processeurs Power9 d’IBM.
Les disques durs, avec 18 To de capacité, sont de type SMR, c’est-à-dire équipés d’un dispositif qui augmente leur capacité en superposant les pistes de données. Les disques SMR ont la réputation de moins bien supporter les écritures intensives. Mais qu’importe : le but de l’ESS 5000 est d’être un entrepôt de données dans lequel les outils d’analyse de type Machine Learning passent surtout leur temps à puiser des informations.
Des logiciels améliorés pour favoriser les communications de données
Sur le plan logiciel, une nouvelle version du système Spectrum Scale permet d’enchaîner simplement les contrôleurs en réseau afin d’étendre automatiquement la capacité du data lake : les nouveaux disques seraient intégrés en quelques minutes à peine.
Spectrum Scale dispose aussi d’une nouvelle fonction Data Acceleration for AI, qui permettrait de filtrer automatiquement les données résultant des analyses avant de les entreposer dans un autre stockage, de type objet. D’après ce que comprend LeMagIT, cette fonction est plutôt destinée à l’ESS 3000, la petite sœur de l’ESS 5000 et qui, elle, repose plutôt sur des SSD NVMe pour prendre en charge les écritures des serveurs applicatifs. Le scénario serait de remplir le plus rapidement possible l’ESS 5000 avec les résultats des serveurs en passant par la baie intermédiaire ESS 3000 qui, de surcroît, prendrait le soin d’étaler les informations pour préserver les disques SMR.
Spectrum Scale est un système NAS élastique. L’accès en mode objet est assuré par la couche logicielle Cloud Object Storage. Celle-ci aurait aussi été améliorée pour accélérer les lectures de 300 % et les écritures de 150 %.
Au-dessus de Cloud Storage, IBM annonce également une nouvelle version du logiciel Spectrum Discover, l’outil qui sert à lancer des requêtes sur les données. Celui-ci est désormais capable de monitorer les métadonnées en continu, pour ne pas avoir à relancer régulièrement des scans complets d’un cluster ESS 5000 lors des analyses. Selon IBM, Spectrum Discover pourrait ainsi lancer une recherche dans des milliards de fichiers en à peine 0,5 seconde.
Cette nouvelle version de Spectrum Discover sait aussi communiquer automatiquement ses résultats à un cluster Red Hat OpenShift, via un nouveau pilote CSI pour ce dernier, et les enregistrer directement sur un stockage Ceph, également de Red Hat. L’enjeu est de favoriser l’interaction entre le lac de données et les applications modernes exécutées sous forme de containers.