Alexander - stock.adobe.com

Nvidia AI Enterprise : une suite logicielle très matérielle

Nvidia a annoncé le 24 août la disponibilité générale de Nvidia AI Enterprise. Le fabricant promet de fournir une suite logicielle consacrée au traitement de machine learning et de deep learning sur des serveurs exécutant exclusivement les logiciels de virtualisation d’infrastructure vSphere de VMware.

Diminuer le temps de développement de modèles IA de 80 à 8 semaines, telle était la promesse de Nvidia à l’annonce de Nvidia AI Enterprise en mars dernier. Comment ? En adoptant des serveurs capables de supporter la virtualisation des traitements en s’appuyant, entre autres, sur vSphere v7 update 2 de VMware.

Du même coup, les fabricants se sont empressés de faire certifier des serveurs dotés de GPU Nvidia basés sur les architectures Ampere et Turing : A100 (dotés de 40 Go à 80 de VRAM HBM2, PCIe Gen 4 et HGX), A40 (48 Go VRAM GDDR6, PCIe Gen 4) et T4 (16 Go VRAM GDDR6, PCIe Gen 3).

En outre, le concepteur de cartes graphiques assure que des serveurs munis de GPU A30 (24 Go VRAM HBM2, PCIe Gen 4) et A10 (24 Go VRAM GDDR6, PCIe Gen 4) peuvent supporter AI Enterprise. D’autres GPU dont les cartes A16, RTX A5000 et RTX A6000 sont également pris en charge par la suite logicielle.

Asus, Atos-Bull, Dell Technologies, Gigabyte, Fujitsu, HPE, Supermicro, Inspur et Lenovo sont de la partie. Parmi les 37 serveurs uniques déjà certifiés, 23 le sont par Dell EMC, dont 17 de la gamme PowerEdge et 6 estampillés VxRail, la marque d’infrastructure hyperconvergée de l’équipementier.

AI Enterprise, une exclusivité Nvidia – VMware

Outre les diverses architectures GPU et CPU (Intel Cascade Lake et Ice Lake, AMD Rome et Milan), le nombre de GPU et de CPU par nœud, la couche de virtualisation apportée par VMware qui influe sur les performances du système d’IA, Nvidia y adjoint plusieurs pilotes et bibliothèques de son cru.

Dans AI Enterprise, le concepteur propose Nvidia vGPU. Comme son nom l’indique, il s’agit d’une plateforme de virtualisation GPU utilisée pour exécuter plusieurs VMs sur un seul GPU ou une unique VM sur un GPU (cette technologie peut aussi être employée au sein d’une architecture VDI).

Il fournit également Magnum IO GPU Direct Storage (GDS), un pilote système permettant de transférer les données directement entre la mémoire d’une carte GPU et l’espace de stockage d’un serveur, sans passer par des processus CPU. Nvidia assure que celui-ci diminue la latence des entrées-sorties, réduit la consommation de ressources CPU et augmente les débits des traitements. A priori, il est recommandé d’utiliser ce pilote avec la plateforme HGX, la technologie NVlink ou PCIe Gen 4 et les cartes A100 80 Go (accessibles pour l’instant depuis un seul serveur Dell PowerEdge XE8545).

GDS fait partie de CUDA-X AI, une collection de librairies et d’outils conçue pour exploiter diverses capacités des GPU et optimiser le fonctionnement des algorithmes ML/DL. Cette collection dépend du kit d’outils CUDA (CUDA Toolkit) qui inclut les bibliothèques adaptées aux architectures Nvidia, des instruments d’optimisation et de débogage, un compilateur et une librairie de runtime C et C++, afin d’installer les applications sur des architectures x86, ARM et POWER.

L’hyperviseur EXSi et vSphere vCenter 7 de VMware doivent permettre de déployer les modèles soit dans des VM, soit dans des conteneurs Docker sur Kubernetes. Dans ce deuxième cas, l’image gold est associée avec Nvidia GPU Operator, un outil qui doit automatiser la gestion des nœuds GPU et la provision des sous-systèmes logiciels indispensables à leur fonctionnement. L’équipementier y conjugue Network Operator, un outil qui « charge les pilotes, les bibliothèques, les plug-ins de périphériques et les CNI nécessaires sur tout nœud de cluster doté d’une interface réseau Nvidia ».

En combinant les deux technologies, cela permettrait d’implémenter le protocole RDMA nécessaire au fonctionnement de Magnum IO. La procédure de déploiement multinœud se fait exclusivement par le biais d’interfaces réseau Mellanox.

Une profusion d’outils… et de configurations

La plupart de ces outils sont manipulés par des administrateurs système. Les data scientists, les data engineers et les machine learning engineers, eux, ont accès à cinq outils et frameworks. Nvidia entend proposer une suite « de bout en bout » permettant de préparer les données, d’entraîner les modèles et de les déployer.

Rapids est une collection d’outils open source bâtie à partir de l’interface de programmation CUDA pour préparer les données, entraîner des modèles et explorer les résultats à même la mémoire graphique des GPU via Apache Arrow. Cette bibliothèque est compatible avec les frameworks de data science les plus communs comme sckit-learn, Pytorch, Matpotlib ou Pandas via des API Python, au prix d’une modification de 5 à 10 % du code associé aux workloads à traiter. Rapids peut également servir à exécuter des ETL ou des traitements graphes particulièrement lourds « accélérés » par des processeurs graphiques.

Pour l’entraînement des modèles de machine learning et de deep learning, Nvidia fournit des images de conteneurs pour TensorFlow 1, 2 et Pytorch.

Par ailleurs, AI Enterprise contient TensorRT, un autre SDK compatible C++ et Python (aussi accessible dans une version sous licence Apache 2.0) conçu pour optimiser l’inférence de réseaux de neurones bâtis avec TensorFlow, ONNX, Pytorch (après conversion au format ONNX) ou Matlab sur les GPU du constructeur. Enfin, disponible sous la forme d’un conteneur Docker, le serveur d’inférence Triton permet de déployer les modèles TF, Pytorch, ONNX et TensorRT (le format à privilégier) sur différentes machines virtuelles suivant une approche multinodale, pouvant être appelés avec des applications accessibles par les utilisateurs finaux.

Nvidia cherche à convaincre les grands industriels

Nvidia assure que le tout fournit un système de data science plus performant qu’une architecture reposant sur des traitements CPU, voire certaines instances exploitant des processeurs graphiques sans optimisation spécifique. L’entreprise jure que la combinaison de sa plateforme logicielle et des serveurs certifiés réduit le temps d’entraînement et optimise la précision des modèles, mais ne dit rien sur la complexité d’optimisation des sous-systèmes et de la configuration des outils.

Ce système destiné à prendre place dans des data centers, des salles serveurs, ainsi que dans des instances cloud hybride ou cloud privé, vise en premier lieu des industriels ou des instituts de recherche capables de maîtriser la complexité de réseaux de neurones et de modèles ML d’envergure.

Aussi, les clients doivent être prêts à opter pour vSphere et sa manière particulière d’administrer les conteneurs en comparaison d’une distribution nue de Kubernetes.  

De plus, les librairies proposées conviennent davantage à la détection, à la classification et à la reconnaissance d’objets dans des images ou au traitement du langage naturel. Les exemples fournis par Nvidia le prouvent : la société effectue ses tests de performance sur BERT, ResNet-50 ou encore sur de gros jeux de données d’imagerie médicale.

La facturation de Nvidia AI Enterprise dépend du nombre de processeurs physique sur lesquels la suite est installée.

En clair, le fabricant basé à Taipei cible l’industrie pharmaceutique, les constructeurs automobiles, les chercheurs, les spécialistes du manufacturing et les éditeurs de solutions d’IA. Parmi les premiers clients cités par Nvidia, l’on trouve Cerence, le concepteur américain d’un agent conversationnel proposé en marque blanche auprès de fabricants de véhicules tels Mercedes, Volkswagen, Lotus, BMW, Renault ou l’équipementier hi-fi Harman (propriété de Samsung). Le département de sciences computationnelles de l’université de Pise en Italie aurait également testé AI Enterprise.

La facturation de Nvidia AI Enterprise dépend du nombre de processeurs physique sur lesquels la suite est installée. La souscription pour un an est disponible à partir de 2 000 dollars par CPU. L’achat de licences perpétuelles commence à 3 595 dollars par CPU, mais impose l’acquisition d’un service de support supplémentaire réclamant de s’engager sur un, trois ou cinq ans (pour un an, ce tarif MSRP grimpe à 4 594 dollars par CPU). Toutes les licences incluent un support standard pour les entreprises (cinq jours par semaine, neuf heures par jour).

Un « Critical Support » (24 h/24 et 7 j/7) est également proposé. Précisons que ce sont les partenaires-revendeurs de Nvidia (Atea, Carahsoft, Computacenter, Insight Enterprises, NTT, Softverse et SVA System Vertrieb Alexander GmbH – le logo d’Axians figure sur la page Web dédiée du produit) qui fixent le prix final de la suite. Les universités ont le droit, elles, à une remise.

Il faudra payer séparément les serveurs certifiés ainsi que les licences et le support pour VMware vSphere Hypervisor (ESXi) Enterprise Plus Edition 7.0 Update 2, VMware vCenter Server 7,0 Update 2, et de préférence pour Ubuntu 20.04.

Pour approfondir sur Intelligence Artificielle et Data Science