Stockage : DDN lance une baie ExaScaler qui ne contient que des SSD QLC
Le fabricant de solutions de stockage pour supercalculateurs ajoute à sa famille de baies ultra-performantes un modèle peu cher. En vérité, le nouvel AI400X2 est surtout plus adapté à l’IA.
DDN décline son NAS parallélisé ExaScaler en une version AI400X2 dédiée à l’intelligence artificielle générative. La particularité de ce modèle est qu’il n’utilise que des SSDs QLC. Un choix plutôt incongru pour ce fournisseur spécialisé dans le stockage excessivement rapide pour supercalculateurs, puisque Les SSD QLC sont des disques Flash intéressants pour leur rapport capacité/prix, mais ils sont aussi les moins performants.
« Oui, mais, contrairement aux supercalculateurs qui parallélisent les calculs sur un jeu de données restreint, l’intelligence artificielle a besoin de s’entraîner sur une très grande quantité de données, donc nécessite beaucoup de capacité. Dès lors, il devient pertinent de passer aux SSD QLC », commente Mark Nossokoff, analyste chez Hyperion Research.
Il précise : « DDN vient de déclarer qu’on lui avait commandé plus de solutions de stockage pour l’IA durant le premier trimestre 2023 que pendant toute l’année 2022. Il était donc urgent qu’il propose une solution plus adaptée à ce cas d’usage. »
Les ExaScaler sont des NAS parallélisés, c’est-à-dire un cluster de tiroirs de disques, où chaque tiroir est relié à l’un des serveurs du cluster de supercalcul. Cette architecture évite aux unités parallèles des supercalculateurs d’attendre en file indienne pour lire ou écrire leurs données.
D’ordinaire, les tiroirs de disques d’un ExaScaler sont composés à la fois de SSD TLC, très rapides, et de disques durs mécaniques, plus capacitifs. Les seconds récupèrent les données une fois que les nœuds du supercalculateur ont fini de les écrire sur les SSD. Ce système fonctionne très bien dans le cas des supercalculateurs dont la vocation est de lire un jeu de données, de le transformer, puis de l’écrire.
En revanche, les algorithmes d’IA ont un déroulement différent : ils lisent et relisent les données qu’ils ont déjà traitées. De fait, il serait contre-productif de relire des données depuis des disques durs plus lents que les SSDs sur lesquels elles ont été écrites.
Aussi performant en lecture et un meilleur rapport capacité/prix
« Pour autant, les performances des SSDs QLC ne sont pas celles des SSDs TLC, donc les entreprises devront faire des compromis. Mais ce sont des compromis d’autant plus faciles que le prix des SSDs QLC est bien plus avantageux », enchaîne Mitch Lewis, analyste chez Futurum Group.
Concernant les performances, les SSDs QLC sont surtout pénalisés lors des écritures, puisque leurs cellules stockent quatre bits et qu’il faut les réécrire tous les quatre, même quand un seul d’entre eux est modifié. Accessoirement, le fait de contenir plus de bits par cellule (les SSD TLC n’en contiennent que trois, les MLC que deux) contribue à accélérer le vieillissement de la mémoire Flash.
Cependant, les analystes minorent l’importance de ces détails dans le cadre d’un moteur d’entraînement par Machine Learning. En effet, celui-ci passe la plupart de son temps à lire des données et n’en écrit finalement que très peu. Or, sur les lectures, les SSD QLC sont aussi performants que les SSD TLC ou MLC que l’on trouve sur les autres baies ExaScaler de DDN.
En définitive, la caractéristique la plus saillante est celle du prix, puisqu’à quantité de cellules NAND égales, un SSD QLC stocke 33 % de données en plus qu’un SSD TLC et deux fois plus de données en plus qu’un SSD MLC.
« L’achat d’équipement de stockage reste coûteux et, quoi qu’on dise sur les baisses de prix, un SSD est toujours plus cher qu’un disque dur mécanique au regard de la capacité offerte. Néanmoins, si les SSD QLC nous permettent d’obtenir une certaine capacité en dessous du prix plafond que nous nous sommes fixé, alors nous franchirons vraisemblablement le pas de passer enfin aux SSD sur nos clusters de calcul », commente Alf Wachsmann, responsable de l’infrastructure IT au sein de l’institut de recherche Helmholtz à Munich.
L’institut Helmholtz utilise déjà des ExaScaler pour stocker les résultats de ses calculs, car cette architecture parallélisée est plus adaptée pour recevoir les fichiers produits simultanément par une grande quantité de serveurs.
« Nous déployons à présent des infrastructures pour l’IA. Ces projets posent plus une problématique de volume de données que de performances. Dans ce contexte, la caractéristique qui prime dans le stockage est celle de son coût », ajoute Alf Wachsmann, sans vouloir déjà dire s’il restera chez DDN pour doter sa nouvelle infrastructure IA de stockage.
Un NAS plus compliqué, mais un réseau plus simple
Alf Wachsmann est séduit par la promesse que lui a faite DDN d’équiper d’ici à la fin de l’année ses ExaScaler AI400X2 de SSD QLC à la capacité record de 60 To. Mais la question qui le taraude est de savoir si un NAS parallélisé comme le sont les ExaScaler reste plus pertinent pour l’IA qu’un NAS élastique plus classique.
Alf WachsmannResponsable de l'infrastructure IT, institut de recherche Helmholtz à Munich
« La différence technique est qu’un NAS classique, même élastique, a un contrôleur par lequel passent toutes les données qui circulent entre tous les serveurs et tous les nœuds de stockage. Chez DDN, le contrôleur ne sert qu’à indiquer aux serveurs sur quel nœud de stockage se trouvent les données de travail et les serveurs communiquent ensuite directement avec eux », explique Mike Matchett, analyste chez Small World Big Data.
« Cette architecture complique un peu la configuration des serveurs, car il faut installer sur chacun d’eux le pilote et l’équipement réseau qui leur permet de communiquer directement avec les nœuds de stockage. En revanche, elle simplifie grandement l’architecture réseau, car vous déployez moins de switches et de serveurs de cache en cascade », ajoute-t-il.
Pour Alf Wachsmann, cette architecture réseau simplifiée présente un intérêt qui va au-delà de la facilité d’installation de la solution. « Toute la beauté d’ExaScaler tient dans cette architecture qui permet des écritures en Y. Ainsi, en cas de défaillance d’un disque ou d’un lien réseau, les données impactées restent disponibles, sans subir aucun ralentissement à cause d’un cache non cohérent ou d’un parcours plus complexe pour aller chercher des copies des fichiers ailleurs dans le cluster », conclut-il.