Gajus - stock.adobe.com

LLM Guard Services : Dataiku pose des garde-fous pour les projets d’IA générative

Alors que les entreprises ne tirent pas encore les fruits de projets d’IA générative somme toute coûteux et bientôt soumis à l’AI Act, Dataiku se propose de centraliser la gouvernance réglementaire, sécuritaire et financière.

Dataiku officialise le lancement de LLM Guard Services dans ce que l’éditeur nomme LLM Mesh, une « colonne vertébrale commune » pour les applications d’IA générative.

LLM Guard Services instrumentalise des fonctions introduites depuis la plateforme DSS 12 et renforcées dans DSS 13, puis dans sa version 13.2, disponible depuis le 3 octobre.

Cette solution se compose de trois composants :

  • Safe Guard,
  • Quality Guard,
  • Cost Guard.

Safe Guard incarne les fonctions de DSS permettant d’évaluer les requêtes vers de grands modèles de langage et leurs réponses afin de vérifier si elles ne contiennent pas des données personnelles ou confidentielles, et de les bloquer le cas échéant.

Dataiku avait déjà intégré Presidio, un SDK open source (sous licence MIT) développé par Microsoft pour identifier et anonymiser des données sensibles dans des textes (de préférence respectant une certaine structure) et des images (via OCR).

Le système de Dataiku détecte des entités génériques comme des numéros de carte bancaire, des codes IBAN, des adresses courriel, des numéros de téléphone, des URL, des adresses physiques et IP ou encore des noms. À cela s’ajoutent des entités spécifiques à certains pays, dont les identifiants des permis états-uniens ou italiens, les données médicales australiennes et britanniques (entre autres).

Dans DSS 13.2, l’éditeur ajoute la prise en charge de Meta PromptGuard, un modèle de classification capable de détecter des injections dans les prompts et les instructions malicieuses. Cette intégration est accessible en préversion privée pour les clients ayant souscrit au programme « Advanced LLM Mesh Early Adopter ».

Quality Guard dissimule également une fonctionnalité accessible à travers la même modalité. Dataiku a développé une recette d’évaluation des résultats d’un LLM.

« En utilisant LLM Quality Guard, les clients peuvent calculer automatiquement les mesures d’évaluation LLM standard, y compris les techniques LLM-as-a-Judge comme la pertinence de la réponse, la justesse de la réponse, la précision du contexte, etc., ainsi que les techniques statistiques telles que BERT, Rouge et Bleu, et plus encore », indique Dataiku dans un communiqué.

Une courte vidéo permet de se familiariser avec la recette. Suivant la nature de la tâche (chatbot, traduction, résumé, etc.), elle fournit des recommandations sur les métriques à récolter. Il est également possible d’ajouter des évaluations personnalisées : l’interface de la recette intègre un notebook Python. Des alertes peuvent être déclenchées si la qualité des résultats d’un LLM intégré dans une application se dégrade. L’éditeur permet de conserver les résultats des évaluations et le code utilisé pour son exécution à des fins de comparaison.

Maîtriser et prouver la valeur des PoC

Cost Guard était le premier des services LLM Guard à être annoncé en mars 2024. Outre une piste d’audit, Dataiku fournit un tableau de bord qui permet de suivre les coûts et les usages des LLM, qu’ils soient appelés par API ou déployés sur site. L’éditeur offre par ailleurs un moyen de mettre en cache les requêtes et les réponses les plus communes.

« Depuis plusieurs années, les entreprises s’intéressent aux statistiques, aux données, au machine learning, à la data science et à l’analytique. Tous ces domaines sont souvent regroupés sans distinction, et les entreprises s’efforcent de les exploiter. Depuis l’arrivée de ChatGPT, il y a deux ans, les directions générales ont intensifié leurs efforts, incitant leurs équipes data à ne pas manquer cette révolution », résume Amaury Delplancq, vice-président Europe du Sud chez Dataiku.

Les interlocuteurs historiques de Dataiku, comme les chief data officers et les directions informatiques, mènent des expérimentations avec des outils comme les modèles de Mistral, d’OpenAI et de Meta depuis environ un an et demi à deux ans. « Actuellement, la plupart de ces initiatives en sont au stade de preuve de concept (PoC) », considère Amaury Delplancq.

« Cependant, nous entrons dans une nouvelle phase », remarque-t-il. « Dans les grandes entreprises du CAC 40, les dirigeants qui encourageaient leurs équipes à ne pas rater cette opportunité prennent désormais du recul. Ils réalisent qu’ils dépensent beaucoup d’argent et de ressources sans une démonstration claire du retour sur investissement (ROI). Cela crée une pression pour que les PoC montrent des résultats concrets ».

Lors de son événement Everyday AI Week Paris, ayant eu lieu du 24 au 26 septembre, plusieurs clients, dont GRDF, Malakoff Humanis, BNP Paribas ou encore Société Générale, ont fait part de leurs avancées en la matière.

Un « changement de paradigme » réglementaire

À cela s’ajoute la réglementation européenne. « Après l’instauration du RGPD, il est crucial de comprendre l’impact potentiel de l’AI Act. Cela implique que les entreprises doivent s’organiser pour documenter leurs projets et prouver qu’elles contrôlent ces expérimentations », insiste-t-il.

Les entreprises ne seraient « pas prêtes » pour respecter l’AI Act. « J’ai eu plusieurs rendez-vous avec de grandes entreprises du CAC40. De nombreux processus sont gérés par des systèmes accumulés, dont certains ne sont connus que par une ou deux personnes », relate Amaury Delplancq. « Par conséquent, certaines entreprises ne se sentent pas très à l’aise à l’idée d’un audit réglementaire. Tout le monde n’est pas non plus parfaitement organisé, car la réglementation actuelle n’était pas encore entièrement définie ». Maintenant que le texte est entré en vigueur, « nous assistons à un changement de paradigme ».

Voilà la raison d’être de LLM Guard services et du module d’évaluation des projets au regard des exigences de l’AI Act.

Un hub central pour piloter les cas d’usage IA des entreprises

Beaucoup d’acteurs, dont les fournisseurs de cloud, ainsi que Snowflake, Databricks, Splunk, Datadog et d’autres offrent des fonctionnalités similaires en matière de FinOps et de sécurité. Que ce soit pour piloter les usages de l’IA générative ou ceux liés aux traitements de données.

« La différence, c’est que nous ne sommes pas juges et parties », signale Amaury Delplancq. « Nous n’avons pas un modèle à la consommation de ressources cloud. Et ça, ça change absolument tout », assure-t-il. « C’est pour ça que nos grands clients nous sollicitent pour garder le contrôle sur les coûts ».

De manière générale, Dataiku entend se positionner comme la tour de contrôle de l’ensemble des projets d’IA.

« Dataiku se positionne comme le hub central », affirme Amaury Delplancq. « Nous pouvons offrir une vue d’ensemble sur tous les cas d’usage effectués au sein de l’entreprise », ajoute-t-il. « Nous sommes même capables de gérer des cas d’usage réalisés en dehors de Dataiku, tels que ceux sur Snowflake ou Databricks. Certains développeurs utilisent ces outils, ou même Google Vertex, sans passer par l’interface de Dataiku ».

Les grands comptes mentionnés plus haut et d’autres iraient vers l’éditeur pour cette raison. « Nous constatons même que certaines entreprises, malgré leur grande maturité et un groupe de 200 data scientists très productifs, réalisent qu’elles ne peuvent répondre qu’à 10 à 20 % des besoins de leur organisation », évoque le dirigeant. « Ce constat amène ces entreprises à comprendre qu’elles ont besoin d’une plateforme qui peut intégrer une grande partie des tâches et des outils nécessaires au déploiement des projets analytiques et d’IA ».

L’éditeur signale toutefois qu’il peut gérer la gouvernance des modèles et des algorithmes, pas des données. « La gouvernance que nous mettons en place a pour objectif d’aider nos clients à se conformer aux exigences réglementaires. En réalité, ce ne sera pas nous qui devrons répondre directement aux régulateurs », précise le vice-président Europe du Sud.

Pour approfondir sur Data Sciences, Machine Learning, Deep Learning, LLM