Getty Images/iStockphoto
VDI, rastérisation, IA : OVHcloud s’équipe en GPU nouvelle génération
OVHcloud a annoncé l’ajout d’instances cloud publiques et bare metal dotés de cartes graphiques et d’accélérateurs Nvidia du cru 2022-2023. En sus des charges de travail de rastérisation, le fournisseur de cloud souverain entend bien accueillir les modèles d’IA générative de ses clients… Tout comme son concurrent Scaleway.
En février dernier, OVHcloud avait détaillé sa feuille de route pour ses produits PaaS et IA. Du côté IaaS, le fournisseur avait principalement communiqué sur ses capacités de stockage et réseau.
Outre la refonte du réseau pour améliorer le trafic est-ouest dans ses data centers, OVHcloud a racheté OpenIO pour se doter d’une solution de stockage objet compatible S3, qui est d’ores et déjà disponible, et Exten pour sa brique de stockage bloc NVMe Over Fabrics, qui arrivera en bêta cette année dans le cloud public.
Pour autant, le nerf de la guerre, actuellement, semble davantage l’accès aux capacités de calcul. Là aussi, OVHcloud avait ses plans. Il les met aujourd’hui à exécution.
Pour rappel, le fournisseur désormais considéré comme un hyperscaler par IDC proposait des instances dotées de GPU V100 et V100s de Nvidia. À la traîne par rapport à ses concurrents américains, OVHcloud entend bien prouver que lui aussi peut accueillir les charges d’IA générative.
« L’IA a besoin de fondations qui sont le calcul, le stockage et le réseau. Cela fait des années que nous faisons en sorte de proposer l’état de l’art de ces primitives-là. », affirme Yaniv Fdida, Chief Product Officer chez OVHcloud.
A100, H100, L40S, L4… OVHcloud prend tout (ou presque)
Yaniv FdidaChief Product Officer, OVHcloud
Aux instances équipées de Nvidia Tesla V100 (16 Go de VRAM) et V100s (32 Go de VRAM) s’ajoutent des offres s’appuyant sur les Nvidia A100. Plus spécifiquement, OVHcloud s’est équipé de la version de la puce dotée de 80 Go de VRAM HBM2e, de 6913 Cuda Cores et d’une bande passante allant jusqu’à 2 039 Go/s.
Présentés il y a trois ans, les A100 sont actuellement les GPU les plus utilisés lors de l’entraînement et l’inférence de grands modèles de langage (LLM). Toutefois, ici, il ne sera pas possible d’entraîner les plus gros modèles de cette catégorie.
Pour l’heure, OVHcloud propose trois types d’instances équipés de ce GPU disponible dans son offre Public Cloud.
A100-180 dispose de 15vCore (vCPU), 180 de mémoire vive, d’une A100 et 300 Go de stockage sur SSD NVMe, pour une bande passante de 8 Gbit/s. A100-360 couple deux A100, 360 Go de RAM, 30vCore, 500 Go de stockage sur SSD NVMe et est associé à une bande passante de 16 Gbit/s. L’instance A100-720, comme son nom l’indique, inclut 720 Go de RAM, 60 vCore et quatre GPU A100. OVHcloud ne précise pas encore le volume de bande passante associée.
Pour rappel, le LLM open source Falcon-180B, doté de 180 milliards de paramètres, nécessite 400 Go de VRAM pour s’exécuter « rapidement ». Sa déclinaison dotée de 40 milliards de paramètres nécessite 85 à 100 Go de VRAM. En clair, une instance A100-360 suffit amplement pour inférer un modèle comme Falcon-40B ou LLama 2-70B.
« Nous continuerons à développer et à augmenter la capacité des instances que nous mettrons à disposition », promet le Chief Product Officer.
L’IA générative, mais pas que
Pour d’autres charges de travail de machine learning et de deep learning, mais également de VDI ou de traitement de rendu 3D (et rastérisation), la taille des instances proposées par OVHcloud est amplement suffisante, selon Yaniv Fdida.
Aussi, OVHcloud se prépare à déployer des instances dotées des GPU H100 PCIe (80 Go de VRAM HMB2e, 14 592 unités Cuda Core) et H100 SXM (80 Go de VRAM HBM3, 16 896 unités Cuda Core), L40s et L4. Les GPU L40S et L4 seront également placés dans des serveurs bare metal rattachés aux gammes HGR-AI et SCALE-GPU.
Les Nvidia A10, conçus pour les traitements graphiques et le VDI, seront également disponibles dans le cloud public, tout comme les L4. Par exemple, les L40S, plus polyvalents, peuvent exécuter un petit LLM de 7 milliards de paramètres.
OVHcloud a fait l’acquisition de serveurs DGX H100, déployés en respectant l’architecture de référence BasePod et l’interconnexion via des switches Infiniband. Chaque serveur est doté de huit GPU pour un total de 640 Go de VRAM, de deux CPU et de 2 To de RAM. Un de ces serveurs (ou Pod), doté de H100 SXM est déjà utilisé par LightON. La startup française offre une plateforme de développement d’applications propulsée par des IA génératives et entraîne ses propres LLM, dont Alfred. Les instances H100 PCIe seront accessibles d’ici à novembre 2023, tandis que « les clients intéressés par les prochaines offres Nvidia H100 SXM peuvent dès à présent solliciter un devis personnalisé ».
Pour rappel, les cartes SXM permettent de faire communiquer la puce graphique et sa mémoire à la vitesse de 3,35 To/s, contre 2 To/s pour la version PCIe Gen 5.
« Nous sommes déjà en discussion avec d’autres clients », indique Yaniv Fdida. « Pour l’entraînement de grands modèles de langage, l’on peut proposer l’offre établie sur le DGX en s’appuyant sur huit GPU interconnectés (et plus si affinité) ou déployer différentes instances H100, A100, etc. à différentes étapes du processus. »
Pour autant, la demande des clients est variable. « D’autres clients ont besoin de quelques GPU, d’autres souhaitent réaliser quelques appels API », note le responsable.
Les instances A100-180 sont facturées 2,75 euros de l’heure, les A100-360 à 5,50 euros de l’heure, et les A100-720 coûteront 11 euros de l’heure. Le tarif des instances V100 et V100s commence à 0,7 euro de l’heure. « Les V100 et V100s demeurent largement utiles », ajoute-t-il.
GPU : OVHcloud n’oublie pas AMD et Intel
Nvidia n’est pas le seul fournisseur avec lequel OVHcloud envisage de s’équiper. « Nous travaillons avec AMD et Intel sur leurs futures générations de plateformes », indique Yaniv Fdida.
Pour rappel, AMD développe en ce moment même les accélérateurs Instinct MI 300 et vient de racheter le Français Mipsology. Cette startup a développé un framework pour convertir et déployer des modèles d’IA sur des FPGA Xilinx ou des GPU AMD.
Intel développe les GPU pour data centers Flex dont les premières séries (140 et 170) ont été commercialisées l’année dernière.
« Cela évolue énormément. Nous cherchons toujours ce qui est le plus pertinent en matière de performance/prix. Le sujet étant davantage l’adhésion de l’écosystème logiciel plutôt que la puissance des machines », signale le Chief Product Officer.
Un complément essentiel à la PaaS d’OVHCloud
Car, chez OVHcloud, les instances de calcul choisies sont (ou seront) directement accessibles depuis les services PaaS d’OVHcloud, dont AI Notebooks, Training et Deploy.
Comme leur nom l’indique, ces services permettent de préparer des modèles d’IA (qu’ils soient NLG ou non), de les entraîner à l’aide de framework open source, dont PyTorch, TensorFlow ou Scikit-learn et de les déployer sur des conteneurs Kubernetes. OVHcloud prend également en charge la plateforme NGC, qui permet de puiser dans le catalogue de librairies et d’images Docker mis à disposition par Nvidia, pour optimiser les traitements ou accéder à des modèles d’IA.
« Nous allons continuer à monter dans les couches et à proposer des modèles d’IA », annonce Yaniv Fdida. « Pour cela, nous allons nous appuyer sur un écosystème de startups ».
Ce catalogue de modèles préentraînés est disponible depuis AI Deploy. Les projets NLP de Lettria autour de l’analyse des sentiments, des émotions et des détections d’entité sont déjà disponibles. Gladia proposera prochainement des services de transcription speech to text et des fonctionnalités supplémentaires similaires à celles proposées par Lettria, tandis que Voxist propose des modèles de reconnaissance vocale pour de la transcription en temps réel et asynchrone.
D’autres startups sont invitées à collaborer avec OVHcloud pour enrichir ce catalogue.
Du côté de l’IA générative, OVHcloud a plusieurs projets en cours. « Nous voulons abstraire la complexité de l’infrastructure, de l’entraînement et de l’inférence pour aider un développeur à déployer un chatbot sans avoir de connaissances en IA », vante le Chief Product Officer.
Le fournisseur est également en train d’explorer les librairies et les outils qui pourraient rejoindre son offre PaaS, dont des bases de données vectorielles.
Iliad (Scaleway) sort l’artillerie lourde
L’annonce d’OVHcloud, somme toute habituelle chez un fournisseur cloud, fait écho aux projets d’Iliad, maison mère de Free et de Scaleway, qui par la voix de son fondateur, Xavier Niel, a présenté un investissement de 200 millions d’euros dans l’IA en France. Dans ce cadre, Iliad a fait l’acquisition d’un superPod, à savoir un supercalculateur formé de 127 serveurs Nvidia DGX H100 interconnectés, pour un total de 1 016 GPU. Celui-ci est installé dans le DC5, la data center parisien d’OpCore, une filiale d’Iliad. Il se nomme Nabu 2023 chez Scaleway.
Pour entraîner un LLM tel que Llama 2, Meta recommande d’exploiter 2 048 GPU A100 interconnectés, mais les H100 offriraient des gains de performances conséquents, selon Nvidia.
Iliad annonce que les clients de Scaleway ont accès à une offre composée de deux serveurs DGX H100 pour l’entraînement de plus petits modèles (Jero 2023). Scaleway proposera un accès aux outils de la suite Nvidia AI Enterprise.
A contrario, OVHcloud ne communique pas sur le nombre de GPU ou d’instances mis à disposition de ses clients.
Pour l’heure, Scaleway propose des services de stockage objet, en mode bloc, des bases de données managées (PostgreSQL, MySQL et Redis) et des solutions CaaS, ainsi que des images contenant des outils comme PyTorch, TensorFlow, Nvidia Rapids ou encore Jax, mais elle n’a pas encore développé une offre PaaS.
En la matière, OVHcloud a pris de l’avance et poursuit ses efforts pour ajouter des services d’intégration, de traitement, de datawarehousing et d’analytique.
« C’est une bonne chose pour la France et l’Europe, mais chez OVHcloud, ce n’est pas un commencement, c’est une continuité », distingue Yaniv Fdida.
Une nuance qui en dit long sur le gain de maturité de l’écosystème cloud français, à qui il sera de plus en plus difficile de dire qu’il n’est pas mûr pour accueillir les charges de travail critiques.