jules - Fotolia
Stockage en cloud : GCP démarre le turbo Parallelstore
Conçu pour alimenter en données les services d’entraînement en IA, Parallelstore peut aussi apporter ses débits records de 115 Go/s à toute application exécutée sur GCP.
GCP, le cloud public de Google, vient d’activer son service de stockage en ligne Parallelstore, précédemment dévoilé lors de son événement Google Cloud Next 2024, en avril. Conçu pour supporter les accès intensifs des applications d’IA, ce service repose sur le système de stockage DAOS autrefois développé par Intel pour mettre en valeur ses barrettes de mémoire Optane.
DAOS est dans les faits un système de fichiers parallélisé sur plusieurs nœuds de stockage, doublé d’une base de métadonnées stockée en RAM. Réputé gros consommateur de ressources, il ne répartit pas des blocs de données redondants entre plusieurs nœuds de stockage, mais réplique des fichiers entiers sur un maximum de nœuds afin que les accès parallèles ne souffrent d’aucune latence.
De nos jours, les mémoires Optane – sortes d’hybride entre la DRAM pour la vitesse et les SSD pour la capacité – n’existent plus. Pour autant, DAOS est conçu pour utiliser d’autres technologies matérielles d’Intel afin de maximiser les accès.
Son protocole de communication, Intel Omnipath, équivalent à l’Infiniband utilisé sur les supercalculateurs, est décodé à la volée par des cartes Intel IPU installées dans les serveurs de calcul. Ceux-ci interrogent des nœuds de métadonnées pour savoir où se trouve le fichier à charger (ou à écrire), puis communiquent directement avec le nœud de stockage en mode bloc, via un réseau RoCE (RDMA-over-Converged Ethernet) qui est d’autant plus rapide qu’il ne s’encombre pas de gérer les paquets perdus.
Saturer la bande passante des serveurs
Barak EpsteinDirecteur produit, GCP
« Les accès parallèles de Parallelstore sont conçus pour saturer la bande passante des serveurs de calcul. Cela signifie que le service peut délivrer en continu des données à des milliers de machines virtuelles, de GPU ou de TPU [la puce créée par Google pour l’inférence]. Par exemple, pour un déploiement de 100 To, le débit atteint 115 Go/s, 3 millions d’IOPS en lecture et 1 million d’IOPS en écriture, le tout avec une latence inférieure à 0,3 milliseconde », écrit Barak Epstein, directeur produit de GCP, dans un billet de blog.
Selon lui, les temps d’entraînements d’un modèle seraient réduits d’un facteur 3,9 lorsque l’algorithme de Machine learning puise ses données dans un volume Parallelstore plutôt que dans tout autre service de fichiers disponible sur GCP.
Idéalement, GCP imagine que ses clients chargeront d’abord leurs données dans son service de stockage objet Google Cloud Storage, lequel sert tous les usages possibles sur GCP, des applications en SaaS aux machines virtuelles. L’intérêt de cette étape est de sélectionner, parmi toutes les données d’une entreprise, uniquement celles qui devront être soumises au traitement d’IA depuis le volume Parallelstore. Notons que GCP vient de mettre en place un service Storage Insights Dataset qui s’appuie sur son IA maison, Gemini, pour aider les entreprises à trier leurs données. L’utilisation de ce nouveau service est expliquée dans un billet de blog.
Une fois que des données auront été sélectionnées pour l’entraînement, leur transfert vers le service Parallelstore se ferait à la vitesse de 20 Go/s. Si les fichiers sont petits, c’est-à-dire inférieurs à 32 Mo, il faudrait plutôt compter sur une vitesse de 5 000 fichiers transférés par seconde.
Au-delà des services d’entraînements proposés par GCP lui-même, le volume Parallelstore sera accessible à toute application exécutée dans un cluster Kubernetes (plus exactement le service GKE de GCP) via des pilotes CSI dédiés. En pratique, les administrateurs pourront gérer le volume Parallelstore comme n’importe quel volume de stockage rattaché à GKE.