Stockage et IA : Vast répond déjà à NetApp
Vast intègre à son tour des fonctionnalités de bas niveau pour accélérer l’IA générative, dont une base de données vectorielles. Comme chez NetApp, ces fonctionnalités sont supportées par de nouveaux matériels en cluster.
Il n’aura pas fallu attendre longtemps pour que les autres fournisseurs de baies de stockage imitent NetApp dans sa fourniture d’une base de données vectorielle pour faciliter les opérations de RAG. Vast, l’entreprise de Jeff Denworth (en photo), lance InsightEngine, un système qui convertit à la volée les métadonnées de sa Vast DataBase, le dispositif qui indexe les contenus dans ses baies, en vecteurs directement utilisables par des modèles d’IA. Ce mécanisme, le RAG, permet aux entreprises d’inclure leurs propres données dans les IA génératives qu’elles utilisent.
« C’est un peu comme si les fournisseurs d’infrastructure de stockage traversaient une crise d’identité. Ils ne veulent plus être seulement ceux qui livrent une boîte dans laquelle on met des données, ils veulent devenir des acteurs de la gestion des données », observe l’analyste Matt Kimball, du cabinet d’études Moor Insights & Strategies.
De fait, les chatbots d’IA générative ne peuvent inclure les données d’une entreprise dans leurs réponses que si elles sont converties en vecteurs mathématiques. À l’origine, ces données sont soit des fichiers, soit des informations structurées dans des bases de données de type SQL (Oracle, SAP…) ou autre. La conversion est donc une étape, au mieux, chronophage, au pire, compliquée. Les fournisseurs de baies de stockage intégrant dans leurs équipements des systèmes d’indexation des contenus, ils sont les mieux placés pour automatiser toute l’opération et convertir les données en vecteurs au fil de l’eau, voire dès qu’elles sont créées.
Matt KimballAnalyste, Moor Insights & Strategies
Matt Kimball prédit que d’autres fournisseurs de stockage suivront bientôt la voie tracée par NetApp et Vast, pour répondre à la demande, en forte croissance, d’infrastructures adaptées à l’IA générative dans les entreprises. Il suggère toutefois que les initiatives des constructeurs, concernant une mise en forme propriétaire des bases vectorielles pour le RAG, posent le risque de verrouiller les entreprises sur la technologie d’un fournisseur ou l’autre.
À la lecture des détails techniques partagés par Vast, il n’est pas très clair de savoir si Vast a mis au point tout seul une extension vectorielle pour sa base d’indexation des contenus Vast DataBase, ou s’il greffe cette dernière par un moyen qui lui est propre à une base vectorielle fournie par Nvidia, avec lequel il se targue de travailler. Toujours est-il que la solution de Vast permet d’inclure dans le RAG des fichiers (documents) et des bases SQL, tandis que celle de NetApp inclut des fichiers et des données au format objet (e-mails, applications web…).
De nouvelles configurations d’IA avec Cisco
Même s’il propose des baies de stockage à sa marque – qu’il fait assembler par SuperMicro – Vast met surtout en avant que son système d’exploitation (Vast Data Platform) peut transformer un cluster de serveurs de n’importe quelle marque en un NAS parallélisé. HPE propose d’ailleurs ce système d’exploitation sur ses baies Alletra, quand il les vend comme des NAS (partage de fichiers) et non plus comme des SAN (mode bloc).
En marge de l’enrichissement de son système pour le RAG, Vast annonce ainsi avoir conclu un nouveau partenariat matériel avec Cisco, pour déployer Vast Data Platform sur ses serveurs UCS constitués de Xeon de 4e ou 5e génération et de SSD NVMe.
Le cluster de stockage résultant peut communiquer avec les serveurs de calculs (ceux qui exécutent les applications) via plusieurs liens Ethernet RoCE ou Infiniband en 200 ou 400 Gbit/s. En option, les machines Cisco UCS peuvent être équipées de DPU BlueField 3 de Nvidia pour accélérer encore la bande passante utile vers les serveurs de calcul et de GPU L40S de Nvidia afin d’accélérer la vectorisation des données.
Comparativement, les dernières baies AFF A70, A90 et A1K de NetApp sont équipées de connexions Ethernet RoCE en 200 Gbit/s, de Xeon de 4e génération et, en option, des mêmes GPU pour la vectorisation. L’avantage actuel des baies NetApp est qu’elles sont déjà disponibles, alors que les configurations UCS fonctionnant sous Vast Data Platform devraient arriver courant 2025.
Des NAS parallélisés, distribués, pour l’inférence
Même si ces solutions de stockage peuvent en théorie être utilisées pour l’entraînement de modèles (la tâche en IA qui nécessite le plus de performances), NetApp et Vast les proposent plutôt aux entreprises comme des solutions pour faire de l’inférence, c’est-à-dire utiliser, depuis des applications d’IA génératives, des modèles d’IA (LLM) déjà entraînés.
Le scénario d’usage est d’avoir, d’un côté, des serveurs applicatifs qui exécutent tous des chatbots utilisables par les nombreux salariés ou clients d’une entreprise et, de l’autre, ces solutions de stockage qui contiennent toutes les informations dans lesquelles vont puiser ces chatbots. Lorsqu’il s’initialise, le chatbot récupère un maximum de données qu’il stocke dans la RAM de son serveur hôte. Mais comme celle-ci est forcément limitée, le chatbot devra régulièrement partir récupérer d’autres informations sur les baies de stockage.
Dans les deux cas, ces configurations NAS permettent à plusieurs serveurs applicatifs (plusieurs chatbots) d’accéder simultanément au stockage, sur lequel se trouvent le LLM et les données supplémentaires à intégrer en RAG.
L’accès simultané est rendu possible, d’une part, par une parallélisation du protocole de partage de fichiers NFS. NetApp utilise le protocole pNFS standard, Vast utilise quelque chose de propriétaire, mais qui ressemble pourtant comme deux gouttes d’eau à pNFS.
Le principe est que les serveurs interrogent en TCP/IP le service pNFS sur un nœud frontal pour demander l’accès à un fichier et que chacun d’eux transfère ensuite les blocs du fichier voulu en se connectant directement au nœud qui les stocke. L’intelligence du système est qu’un algorithme de répartition au niveau du serveur pNFS s’arrange pour que chaque serveur discute avec un nœud de stockage différent.
D’autre part, ces NAS sont dits distribués. C’est-à-dire qu’il y a, en frontal, non pas un serveur pNFS, mais plusieurs (pour répondre aux requêtes simultanées), et que tous sont capables d’indiquer aux serveurs applicatifs où se trouvent tous les fichiers sur tous les nœuds de stockage. De manière assez ironique, NetApp appelle ce système OnTap Data Platform (for AI project), du même nom que le système d’exploitation de Vast.