sarayut_sy - stock.adobe.com
IA générative : Fujitsu tient son ChatGPT sur site
L’équipementier japonais développe depuis le début de l’année Private GPT, une solution tout-en-un permettant à ses clients de reproduire l’expérience ChatGPT et d’accéder à un RAG clé en main sur site à moindre coût. Pour l’heure, il compte les POCs.
L’IA générative est prometteuse, mais les entreprises, notamment en Europe, ne veulent pas forcément héberger les modèles et les données sur des instances de cloud public, constate Fujitsu.
De plus, les coûts d’exploitation peuvent s’envoler rapidement, surtout avec les LLM propriétaires, considère Udo Würtz, Chief Data Officer, Fujitsu European Platform.
« Les modèles propriétaires disponibles dans le cloud sont bien entraînés sur une grande quantité de données. Ils s’exécutent sur d’énormes infrastructures en arrière-plan », note-t-il. « En même temps, il faut payer pour cela, ce qui peut être très coûteux ».
Le CDO fait part du témoignage d’un groupe automobile allemand. « Ils ont commencé avec GPT 3.5 dans un environnement dédié dans le cloud. Le prix était d’environ 500 euros par mois. En passant à GPT-4, avec la charge de travail qu’ils avaient, la facture mensuelle a grimpé de 500 à 34 000 euros par mois », signale-t-il. « C’est à ce moment-là qu’ils ont pris la décision de développer leur propre solution basée sur l’open source ».
Fujitsu marche dans la même direction avec sa solution Private GPT. Le fournisseur japonais l’avait présenté en février dernier, lors du World AI Cannes Festival. Celle-ci est désormais accessible pour les entreprises ne souhaitant pas exposer leurs données sur le cloud public.
Sous le capot : RAG et Mixtral modifié
La solution « clé en main » inclut le modèle d’IA générative, les applications front-end, un système RAG (Retrieval-Augmented Generation), la personnalisation du LLM et le ou les serveurs à déployer dans le data center du client.
Le grand modèle de langage derrière Private GPT n’est autre qu’un variant de Mixtral 8x7B, un modèle « SMOE » développé à l’origine par Mistral AI. « Nous travaillons avec la startup allemande Vago Solutions qui a renforcé l’entraînement du modèle pour la langue allemande », indique Udo Würtz.
Clairement, la division de Fujitsu derrière Private GPT vise en premier lieu le marché allemand, mais le modèle conserve ses connaissances en anglais, italien, français et espagnol.
Par ailleurs, Fujitsu a mis en place une couche de traduction NLP. « Le contenu peut être traduit on Prem dans 31 langues supplémentaires, dont le chinois (simplifié et traditionnel), l’arabe, le coréen, le norvégien ou encore le danois », illustre-t-il.
Udo WürtzChief data officer, Fujistu European Platform
Si Mixtral 8x7B est moins performant que GPT 4 ou Llama 3-70B, il s’approche des prestations de GPT 3.5 et de Llama 2-70B tout en étant moins cher à exécuter, vante le chief data officer.
« La question est la suivante : “quand vous interrogez l’IA concernant vos données d’entreprise, avez-vous besoin de ces modèles puissants ?”. Je peux vous fournir la réponse : non. C’est en tout cas ce que nous disent les 140 clients qui ont pu tester notre solution », assure-t-il.
Surtout, cette variante de Mixtral peut s’exécuter sur un serveur incluant un seul GPU Nvidia L40S doté de 48 Go de VRAM GDDR6. « Cette carte Nvidia L40S peut prendre en charge jusqu’à 500 requêtes concurrentes (en parallèle) par seconde, ce qui signifie qu’un seul serveur suffit pour des centaines, voire des milliers d’utilisateurs », anticipe le CDO.
Le serveur en question est issu de la gamme Fujitsu Primergy M7 (probablement le RX2540) et est doté de 512 Go de mémoire vive et d’une carte mère bisocket pour processeur Intel de la génération Sapphire Rapids.
Les systèmes de référence sont développés en partenariat avec Intel, Nvidia, Juniper Networks (réseau) et NetApp (stockage). L’applicatif Private GPT s’exécute sur la distribution Kubernetes SUSE Rancher, sur la solution hyperconvergée Harvester et utilise pour système d’exploitation SUSE Linux Enterprise Server (SLES).
Private GPT est déployable en production ou en POC sur des machines on prem ou colocalisées. Les clients peuvent acheter les machines, les licences nécessaires ou bien opter pour le service de paiement à l’usage Fujitsu Uscale. Le fournisseur prend en charge d’autres LLM « open weight » et propriétaires. Il ne précise cependant pas la tarification de son service. « Notre modèle “pay per use” est clair et précis et permet de réaliser de larges économies par rapport aux services cloud », vante Udo Würtz.
En revanche, Fujitsu garantit ne pas avoir accès aux données de ses clients.
« Nous n’y avons pas accès », martèle le CDO. « C’est privé, pas de service en cloud, pas de connexion Internet, pas de VPN de l’extérieur si vous ne voulez pas l’avoir. C’est donc très intéressant pour l’armée, la police, le secteur public, etc., car les données ne quittent pas la zone de l’entreprise ou du département du client ».
Des POC dans des secteurs sensibles
Depuis son AI Test Drive – un environnement de cloud privé hébergé par Cyxtera ou NTT permettant d’isoler des espaces de tests –, le fournisseur japonais permet à ses clients d’essayer la solution avec le modèle de base à partir des instances déployées en Allemagne, au Royaume-Uni. Private GPT permet de charger des PDF et des fichiers textes dans un volume de stockage et s’occupe automatiquement de la vectorisation des données.
LeMagIT a pu tester rapidement la solution avec des documents de quelques dizaines à un millier de pages. Les réponses obtenues étaient correctes, sourcées, quoiqu’un peu génériques. De fait, un système RAG demande généralement de personnaliser le LLM et le modèle d’embedding chargé de créer les vecteurs à partir des documents fournis.
Pour le moment, les clients européens de Fujitsu mènent principalement des POC. Ceux-là sont issus du secteur de la défense, du retail, du BTP, de la sidérurgie, de la gestion de data centers, du secteur public, des fournisseurs de services, des administrations, du secteur l’automobile, etc.
Udo WürtzChief data officer, Fujistu European Platform
« Des clients de divers secteurs voient en l’IA une solution pour conserver les connaissances expertes et améliorer l’efficacité opérationnelle », résume Udo Würtz. « Dans le secteur de l’énergie, ils font face à une abondance de textes légaux et à une pénurie de personnel qualifié. Les acteurs de la défense et de la construction ont besoin de fluidifier et de simplifier l’accès aux instructions (d’assemblage, de maintenance), tandis que le secteur juridique s’inquiète de la précision des informations fournies par l’IA. Dans le tourisme, l’IA pourrait recommander des destinations de vacances en fonction des conditions climatiques et des besoins des clients », ajoute-t-il.
Une solution à parfaire
De son côté, Fujitsu doit améliorer Private GPT afin de prendre en charge l’ensemble des cas d’usage envisagés par ses clients. Avant la fin de l’année, il prévoit d’ajouter un thésaurus (une ontologie), un moyen de prendre en charge les métadonnées des documents (ingérées), le test de différents modèles d’embedding et de bonifier les réponses ciblant un seul document. Il permettra aussi de visualiser à même l’application les références données par le système RAG, de forcer un ton neutre et de traiter des données tabulaires (« ce qui n’a rien d’aisé, au vu des spécificités des SGBD relationnels », informe Udo Würtz).
Plus tard en 2025, il envisage de prendre en charge plusieurs LLM, de parfaire l’historique de conversation, de fournir des templates de prompts, de fournir des indicateurs de qualité des documents, d’améliorer la recherche intradocument ou encore d’ingérer davantage de sources de données en provenance du Web ou d’outils tiers.
Actuellement, les mécanismes de sécurité de Private GPT sont bien connus des entreprises.
« Les usagers sont connectés à l’annuaire Microsoft Active Directory (désormais nommé Entra ID, N.D.L.R.) ou, pour un environnement Linux, à l’annuaire LDAP pur. Sans ces identifiants, l’accès au système est impossible. Le système peut être protégé par des mécanismes supplémentaires de répartition de charge, dont ceux effectuant le déchargement SSL ou des proxys agiles pour les solutions open source », précise Udo Würtz. « Nous gérons cette fonction, et vous pouvez contrôler votre propre réseau entre l’instance IA et le proxy pour empêcher toute interception de paquets ».
D’autres mesures de sécurité suivront. Elles sont actuellement en test.
Fujitsu est loin d’être le seul équipementier sur le créneau de l’IA « souveraine » ou privée. Des acteurs comme HPE, Dell ou encore Nutanix entendent proposer des solutions similaires. Reste que le Japonais a pour lui un pedigree R&D en intelligence artificielle, et qu’il est un contributeur actif de la LF Data&AI Foundation. À ce jeu, il se retrouve davantage en compétition avec IBM, mais il faudrait plutôt comparer Watsonx.ai à Kozuchi, une plateforme cloud native consacrée à la conception, à l’entraînement et au déploiement d’IA.