BillionPhotos.com - Fotolia
IA générative : la LF AI & Data met en garde contre « l’open washing »
La filiale de Linux Foundation encourage les fournisseurs de grands modèles de langage – dont la plupart d’entre eux étaient représentés lors de l’AI Dev Forum organisé les 19 et 20 juin sur Paris – à évaluer l’ouverture de leurs LLM au regard des outils développés dans le cadre du programme Generative AI Commons.
Existe-t-il réellement des modèles de machine learning et de grands modèles de langage open source ? C’est la question que se pose la LF AI & Data, depuis la création du programme Generative AI Commons lancé à l’occasion de l’Open Source Summit de Bilbao, en septembre dernier.
« Le sujet de l’IA ouverte pose plusieurs défis », déclare Ibrahim Haddad, vice-président des programmes stratégiques chez la Linux Foundation et directeur de la LF AI & Data Foundation. « Une grande partie de ces défis est liée au régime de licence utilisé. Quand des modèles d’IA dits ouverts sont mis à disposition, dans certains cas, des licences logicielles open source sont utilisées pour concéder des droits sur des composants qui ne sont pas du code source », illustre-t-il.
« Il n’est techniquement pas possible de parler d’IA open source »
De manière générale, en sus de pratiquer une forme « d’open washing », les acteurs du secteur semblent ne pas comprendre les implications des licences utilisées.
En réalité, il n’est techniquement pas possible de parler d’IA open source, selon Ofer Hermoni, consultant en stratégie IA chez Stealth, cofondateur de la LF AI&Data et membre du comité éducation et sensibilisation de Generative AI Commons. « Beaucoup de gens parlent d’IA open source, alors qu’il n’existe rien de tel. Pourquoi ? Parce que le terme n’est pas encore officiellement défini ».
Dans le monde du logiciel libre, les notions d’ouverture sont généralement définies par l’Open Source Initiative (OSI). L’organisation travaille depuis plus de deux ans à définir ce qu’est l’IA open source. « Nous sommes actuellement au stade d’un brouillon stable », note Ofer Hermoni. La définition devrait être publiée en octobre prochain.
Ces différents éléments entraînent des situations quelque peu ubuesques. « J’ai trouvé des versions fine-tunées de modèles Llama 2 – modèle qui, pour rappel, est proposé sous une licence propriétaire permissive – publiées sous licence Apache 2.0 », témoigne le consultant.
C’est pour cela que la LF AI & Data encourage les entreprises à adopter le Model Openness Framework.
Model Openness Framework (ou MOF, pour les intimes) est un cadre présenté le 17 avril dernier par les groupes de travail de Generative AI Commons afin de tenter d’évaluer le degré d’ouverture des grands modèles de langage et de leurs composants.
Près de 80 organisations et entreprises auraient contribué ou assisté à sa conception. Le framework tient en un système de classification divisé en trois catégories afin de qualifier de l’ouverture du code, des données et de la documentation associée aux LLM.
« Nous avons identifié 17 éléments différents qui doivent être ouverts. Pour chacun d’entre eux, nous définissons le niveau d’ouverture et les licences associées », résume Ofer Hermoni.
Ainsi, la première catégorie s’intéresse à la présence (ou non) d’un article de recherche pour accompagner la disponibilité d’un modèle et sa complétude, aux jeux de données utilisées, aux paramètres, ainsi qu’aux checkpoints intermédiaires du modèle et leur ouverture.
La deuxième catégorie s’attache au code nécessaire à l’entraînement, à l’inférence, aux jeux de données et base de code d’évaluation, ainsi qu’aux outils et librairies utilisés.
La troisième catégorie concerne l’architecture du modèle, ses paramètres finaux, son rapport technique, les résultats de benchmarks, ainsi que les cartes des modèles et des données.
Bien évidemment, le MOF doit permettre de vérifier les licences appliquées pour chacun de ces items.
Il faut bien comprendre que le framework prend en compte deux notions distinctes : l’ouverture des éléments et leur complétude.
« L’ouverture est une propriété binaire qui indique si un composant est soumis à une licence ouverte ou non », précisent les contributeurs principaux du framework. « Un composant est considéré comme “ouvert” si et seulement s’il est distribué sous une licence qui accorde aux utilisateurs le droit d’accéder, d’utiliser, de modifier et de partager librement le composant. ».
A contrario, « la complétude consiste à fournir des informations complètes et bien documentées pour tous les éléments, en veillant à ce que chaque élément soit complet, autonome et utilisable de manière significative, utilisable sans nécessiter de contexte ou de ressources supplémentaires ».
La plupart des LLM « ouverts » échouent à l’épreuve du Model Openness Framework
Lors de l’AI Dev Forum, la LF AI&Data a présenté la version bêta de Model Openness Tool (MoT), une implémentation du framework MOF disponible depuis le site Web « is It Open ? ».
Pour l’instant, il permet aux fournisseurs et aux utilisateurs de rapporter les licences utilisées et l’existence ou non des 17 éléments listés.
Ainsi, l’outil juge de la bonne utilisation des licences logicielles approuvées par l’OSI et du recours aux licences CC-BY-4.0 et CDLA-Permissive-2.0 pour les données et la documentation. Dans le second cas, le recours à des licences de contenus ouverts est considéré comme « acceptable ».
Le constat est sans appel.
« Nous avons déjà analysé plusieurs modèles dits ouverts. La plupart d’entre eux ne répondent pas à la définition existante de l’open source », souligne Ofer Hermoni.
La consultation du site Web « is It Open ? » reflète bien ce phénomène. Quand bien même certains projets obtiennent la validation de la catégorie 3, cette dernière est « conditionnelle », parce que seul l’accès aux poids est véritablement ouvert. Certains modèles, dont ceux d’IBM, sont accompagnés de tous les éléments attendus, mais les licences associées à la documentation et aux données sont « invalides », car absentes.
Une forme de tolérance sur les données d’entraînement
Concernant les données d’entraînement, le framework MOF est, en réalité, tolérant, à l’image des premières conclusions des débats au sein de l’Open Source Initiative.
« Actuellement, il semble que l’on ne va pas exiger des données d’entraînement sous licence ouvertes, car l’objectif est de permettre à certains systèmes d’être estampillés open source », indique Ofer Hermoni. « Si nous imposons des données ouvertes, il n’y aurait pas de projets open source significatifs, notamment en matière d’IA générative, car la barre serait placée trop haut ».
De fait, des données disponibles librement ou dans le domaine public peuvent être soumises à des régimes de droit d’auteur différent suivant les pays. En revanche, le brouillon de la définition produite par l’OSI indique qu’il faudra fournir « des informations suffisamment détaillées sur les données utilisées pour entraîner le système, de sorte qu’une personne compétente puisse recréer un système substantiellement équivalent en utilisant les mêmes données ou des données similaires ».
Ibrahim HaddadDirecteur, LF AI & Data
« J’encourage Mistral AI à utiliser le Model Openness Framework et à remplir le formulaire du Model Open Tool pour leurs modèles », a lancé Ibrahim Haddad après la présentation de la responsable des relations avec les développeurs de Mistral AI des différents LLM de la startup, lors du keynote d’ouverture d’AI Dev Forum.
« Nous voulons que le MOF et le MOT soient adoptés », renchérit Ofer Hermoni auprès du MagIT. « Nous voulons voir des entreprises ou des projets contribuer à des modèles d’IA sur la base des lignes directrices et répondre réellement à la (future) définition de l’IA open source ».
Cela ne sera pas aisé, reconnaît le consultant. « Il y a beaucoup d’éléments à évaluer et les concepteurs des modèles ne savent tout simplement pas quelle licence appliquer ».