Infrastructures d’IA : QiStor réinvente le fonctionnement du stockage
La startup implémente un nouveau contrôleur qui permettrait aux SSD de stocker un document d’un seul tenant plutôt qu’en une multitude de blocs. Le format clé-valeur choisi permettrait à l’IA de consommer moins d’énergie.
Réinventer le fonctionnement de l’écriture des données sur les supports de stockage pour diviser par 10 la consommation des baies de disques. Telle est l’ambition de la startup américaine QiStor, qui développe un firmware grâce auquel les SSD n’écrivent plus des fragments de données dans des blocs de même taille numérotés, mais à la manière « clé-valeur ». En substance, un document – la valeur – n’a plus qu’un seul emplacement sur le disque – la clé.
Selon QiStor, le stockage sur SSD est actuellement gourmand en énergie et gaspille les performances des datacenters parce que sa méthode d’allocation des données est ancrée dans le passé lointain des disques durs – et même des disquettes ! Leur modèle de bloc à taille fixe, inventé pour contourner les contraintes des supports rotatifs, suppose de fragmenter chaque fichier, puis d’indexer chaque fragment. Lors de la relecture, il faut aussi relire chaque index pour retrouver chaque fragment.
Cette méthode, gourmande en calculs pour le processeur d’un serveur de stockage, avait autrefois le double avantage de répartir le fil d’un fichier aux endroits que la tête de lecture pouvait survoler le plus rapidement et de remplir facilement les espaces laissés vacants par les fichiers effacés. Mais ce fonctionnement n’apporte plus aucun bénéfice avec les mémoires NAND, le support électronique des SSD.
Pire, sachant qu’il faut tenir compte dans les SSD de l’usure des cellules, il faut faire toute une gymnastique pour éviter d’écrire spontanément dans les blocs laissés vacants par les fichiers effacés.
« Ce principe fonctionne, mais avec beaucoup d’inefficacités qui se traduisent par un gaspillage de capacité, de performance et d’énergie. Quelle est la solution optimale ? L’allocation et le suivi de l’espace devraient se faire en un seul endroit, au niveau le plus bas, et sur un matériel dédié à cette tâche », dit Andy Tomlin, PDG de QiStor.
Réduire la consommation d’énergie du stockage
Basée dans la Silicon Valley, la startup QiStor travaille donc à implémenter un nouveau contrôleur de mémoires NAND – pour l’heure un FPGA exécutant son firmware – qui élimine la fragmentation intermédiaire. Ce contrôleur doit permettre au processeur du serveur hôte d’accéder à chacun de ses fichiers comme s’il était contenu dans un seul bloc, réduisant drastiquement une charge de travail gourmande en énergie.
Andy Tomlin tient à souligner le problème croissant de l’alimentation des centres de données, exacerbé par l’augmentation de l’utilisation de l’IA. Dans ce contexte, les centres de données utilisent 1 à 2 % de l’électricité mondiale et le stockage des données en consomme 20 à 25 %. Par ailleurs, selon le Forum économique mondial, la puissance de calcul nécessaire pour soutenir la croissance de l’IA double environ tous les 100 jours.
Andy TomlinPDG de QiStor
Pour Andy Tomlin, le besoin principal dans ce contexte est celui de modules dédiés capables de décharger le traitement des processeurs. L’utilisation des GPU en tant qu’accélération matérielle en est un exemple typique, mais il existe également des DPU, des accélérateurs de réseau, etc. Son FPGA entre dans cette catégorie, avec un traitement dédié.
« Du point de vue logique, nous pensons que la solution technique est le principe d’indexation clé-valeur. Il fournit une abstraction qui est une référence définie par l’utilisateur. Ce n’est pas l’appareil qui la définit. Il existe d’autres moyens, mais la clé-valeur est l’abstraction la plus simple pour les informations que nous voulons stocker. Dans la plupart des bases de données, la couche inférieure est une clé-valeur », dit le PDG de la startup.
Un format clé-valeur qui s’impose aux applications modernes
Dans le format clé-valeur, la clé est le nom d’une variable et la valeur est, comme son nom l’indique, sa valeur. Les clés et les valeurs peuvent être de n’importe quelle longueur et le format supporte l’imbrication, de sorte qu’une clé peut avoir une valeur qui est une autre clé, avec des valeurs apparentées.
Le format clé-valeur est très répandu. On le retrouve dans le format JSON, dans le datastore etcd de Kubernetes, ou encore comme type de données dans les langages de programmation JavaScript et Python. Il constitue aussi le fondement des bases de données NoSQL.
Par ailleurs, un datastore clé-valeur serait un élément déterminant pour l’efficacité des bases de données vectorielles utilisées pour l’IA, selon QiStor.
L’idée d’utiliser le format clé-valeur pour accéder aux données sur un SSD n’est pas nouvelle. Elle est même à la base du standard NVMe KV défini en 2021 par le consortium NVM Express. Pour autant, NVMe KV implémente plutôt un nouveau jeu de commandes exécutables par le processeur plutôt qu’une refonte du contrôleur qui pilote les SSD.
Andy TomlinPDG de QiStor
Avec son FPGA, QiStor revendique une accélération de 10 à 100 fois. Elle est obtenue par des moyens tels que l’optimisation des lectures/écritures et la réduction ou l’élimination des opérations de maintenance des SSD, comme le Garbage collection, la fameuse gymnastique censée réduire l’usure des cellules NAND.
« C’est intéressant pour les clients qui ont de grands ensembles de données, donc pas ceux qui tiendraient dans la mémoire. Nous parlons de 1 Po ou plus, mais pas moins de 100 Go. En matière de charges de travail, nos cas d’usage sont les applications web, d’analyse, d’IA et de tout ce qui nécessite des performances pour de grandes quantités de stockage », assure Andy Tomlin.
« Certains clients exploitent des dizaines ou des milliers de serveurs de bases de données utilisant le format clé-valeur, des départements entiers y sont consacrés. Le marché des bases de données représente 100 milliards de dollars et une grande partie est consacrée à la valeur clé. Nous sommes pertinents dans tous ces cas de figure », ajoute-t-il.
Pour autant, QiStor n’est pas encore en mesure de commercialiser un produit avant une bonne année. « Nous avons construit une grande partie de la technologie de base, mais il nous reste à construire le moteur de stockage », reconnaît le PDG.