Getty Images/iStockphoto
GPT-in-a-Box : Nutanix promet du « One click GenAI »
Après des partenariats noués avec Hugging Face et Nvidia, et sa solution GPT-in-a-Box 2.0, Nutanix entend simplifier le passage en production des charges de travail GenAI en entreprise.
Nutanix veut reproduire les recettes de son succès dans le domaine de l’infrastructure sur la GenAI. En quelques mots, le spécialiste de l’hyperconvergence et des environnements multicloud veut permettre de déployer et de gérer les charges de travail d’intelligence artificielle (IA) où bon leur semble avec la plus grande simplicité possible.
« Nous allons simplifier l’IA comme nous avons simplifié l’infrastructure », promet ainsi Rajiv Ramaswami, CEO de Nutanix.
Nutanix a d’ailleurs profité de sa conférence .Next 2024, qui s’est tenue à Barcelone fin mai, pour présenter la version 2.0 de sa solution GPT-in-a-Box. Si la première itération, lancée en août 2023, a fait office de PoC et a permis de valider les attentes des clients, la nouvelle venue doit marquer l’entrée en production des solutions d’intelligence artificielle génératives à l’échelle.
GPT-in-a-Box 2.0 s’articule autour d’une interface utilisateur unifiée pour la gestion des modèles de base et la création de points de terminaison AP. Elle prend en outre en charge la gestion des clés d’accès et intègre les solutions de stockage fichiers et objets Nutanix, ainsi que les GPU Nvidia Tensor Core.
Automatiser le déploiement des LLMs du catalogue Hugging Face
Pour gérer les grands modèles de langage (LLM), Nutanix a également annoncé un partenariat avec Hugging Face. Les deux entreprises vont développer une intégration personnalisée de Text Generation Inference, la bibliothèque open source de Hugging Face pour le déploiement en production de LLMs.
L’idée est d’avoir un processus complètement automatisé pour leurs déploiements sur les infrastructures Nutanix à partir de GPT in a Box.
Il est également possible d’intégrer des modèles spécifiques (OpenAI, Mistral AI, etc.) sans passer par Hugging Face, précise Thomas Cornely, Senior Vice President of Product Management de Nutanix.
Au travers d’un second partenariat noué avec Nvidia, Nutanix fournira également une interface utilisateur simplifiée pour déployer et configurer les micros-services du catalogue NIM du fondeur de Santa Clara.
Pour la partie infrastructure, GPT-in-a-Box s’appuie sur les dernières évolutions apportées par la plateforme de gestion des environnements Kubernetes, NKP, également dévoilée par Nutanix lors de son événement barcelonais. Celle-ci permet automatiquement de dimensionner et d’allouer des clusters dédiés aux charges de travail de GenAI, sur site et dans le cloud.
Nutanix va également tirer parti de la prise en charge à venir de GPU Direct Storage de Nvidia pour l’accélération des charges de travail d’IA et de machine learning.
Des cas d’usage dans la lutte contre la fraude
« L’objectif avec GPT-in-a-Box est de donner aux entreprises un cadre simple et efficace pour gérer et déployer leurs charges de travail d’IA », explique au MagIT Thomas Cornely.
Thomas CornelySenior Vice President, Product Management, Nutanix
Le responsable précise toutefois que la solution va surtout répondre aux besoins des phases de mise en production, d’entraînement et de fine tuning, et pas l’inférence, qu’il estime plus intéressante à faire dans le cloud et sur des infrastructures dédiées.
« Le schéma que nous voyons chez nos clients est qu’ils préparent leurs modèles dans le cloud puis finalisent l’entraînement et passent en production en les déployant sur site », détaille Sammy Zoghlami SVP Sales de Nutanix pour la région EMEA qui a, par ailleurs, assuré au MagIT que plusieurs cas d’usage étaient en cours de déploiement en Europe, notamment pour des applications antifraude.
En parallèle, Nutanix a également amélioré sa plateforme de données non structurées pour l’Intelligence artificielle et le machine learning. Nutanix Unified Storage (NUS) prend désormais en charge une nouvelle plateforme tout-NVMe de 550 téraoctets et un débit de lecture séquentielle allant jusqu’à 10 gigaoctets/seconde à partir d’un seul nœud.