momius - Fotolia
L’OSI pose (enfin) sa définition de l’IA open source
Comme prévu, l’Open Source Initiative a publié avant la fin du mois d’octobre sa définition de l’IA open source (Open Source AI Definition, OSAID). L’association très respectée dans le monde du logiciel libre se montre plus souple qu’à l’accoutumée.
Du fait des particularités des modèles de machine learning et de deep learning, une licence approuvée par l’OSI, comme Apache 2.0 ou MIT ne suffit pas à qualifier une IA d’open source. De fait, en sus du code, les modèles sont entraînés à partir de données qui ne sont pas forcément libres de droits. Par exemple, les fournisseurs de LLM américains usent et abusent du « fair use », une condition du droit fédéral américain permettant, dans certains domaines, d’exploiter des données publiques pour entraîner un modèle d’IA.
Dès lors, les poids, le modèle et ses paramètres peuvent porter une licence open source, mais pas ses données. Par convenance, l’on parle de modèle « open weight ».
À cela s’ajoute une disparité dans la documentation produite par les fournisseurs de modèle. C’est particulièrement vrai quand il est question d’IA générative. Les modèles même « open weight » ne sont pas systématiquement accompagnés d’un article de recherche. Et quand ils le sont, ces documents ne font pas forcément toute la lumière sur l’architecture sous-jacente et les moyens de reproduire l’expérience. Parfois, le fichier de configuration JSON (souvent intitulé config.json) est le seul élément pour se renseigner sur la structure d’un modèle… à condition de connaître la signification de chacun des éléments cités.
Et c’est justement pour pallier ces défauts que l’OSI entend pousser une définition spécifique à l’IA open source. Un travail qui a pris un peu plus d’un an.
D’emblée, l’organisation s’appuie sur les préceptes posés par l’OCDE dans ses définitions des systèmes d’IA et du machine learning. Un système d’IA est présenté comme un « système basé sur une machine qui, pour des objectifs explicites ou implicites, déduit, à partir des données qu’il reçoit, comment générer des résultats tels que des prédictions, du contenu, des recommandations ou des décisions qui peuvent influencer des environnements physiques ou virtuels ».
Et le machine learning ? « Un ensemble de techniques qui permet aux machines d’améliorer leurs performances et généralement de générer des modèles de manière automatisée grâce à l’exposition à des données d’entraînement, ce qui peut aider à identifier des modèles et des régularités plutôt que par des instructions explicites d’un être humain ».
Surtout, l’OSI entend permettre l’utilisation, l’étude, la modification et le partage libre de systèmes d’IA et de leurs composants, dont les modèles.
Selon cette définition, un modèle d’IA englobe l’architecture, les paramètres dont les poids, et le code pour inférer ce modèle.
Les poids (weights) correspondent à « un ensemble de paramètres appris qui se superposent à l’architecture du modèle pour produire une sortie à partir d’une entrée donnée ».
Quelles sont les grandes caractéristiques de l’IA open source ?
Voilà pour les grands principes. Mais l’OSI s’illustre surtout en listant ses « préférences » concernant les informations sur les données d’entraînement, la documentation, le code et les paramètres.
Il faut « suffisamment » d’informations concernant les données d’entraînement pour qu’une « personne compétente » puisse recréer un système d’IA « substantiellement équivalent ». Un projet d’IA open source devrait donc fournir « une description complète de toutes les sources de données », y compris celles qui ne peuvent être partagées directement.
Les informations doivent inclure la provenance, la portée et les caractéristiques des données, ainsi que les méthodes utilisées pour leurs acquisition, sélection, étiquetage, traitement et filtrage. Les chercheurs doivent également s’engager à fournir une liste des données d’entraînement accessibles publiquement et des données tierces ainsi que les modalités d’accès, y compris quand elles sont payantes.
Ménager la chèvre et le chou
Oui, l’Open Source Initiative n’exclut pas les données propriétaires ou confidentielles et n’oblige pas leur repartage. De fait, l’organisation considère que des données faisant partie du domaine public dans certains pays ne le sont pas dans d’autres. En clair, l’ONG tend à éviter les incertitudes légales. Elle ne souhaite pas non plus que l’IA ouverte soit une « niche » : imposer l’usage de données sous licence ouverte, comme les licences creative commons CC-BY-4.0, réduirait grandement l’amplitude des possibilités pour les fournisseurs de modèles. Aussi certains domaines d’expertise réclament de ne pas exposer les données publiquement. C’est le cas dans la médecine.
Dans sa définition de l’IA Open source, l’OSI réclame l’ensemble du code nécessaire à l’entraînement et à l’exécution du système. Cela inclut les pipelines d’entraînement, dont ceux nécessaires aux traitements des données, aux validations ou aux tests.
Tous ces éléments devraient être sous une licence approuvée par l’OSI, comme Apache 2.0 ou MIT. Il en va de même pour les poids et les paramètres de configuration. Évidemment, toute version modifiée d’un système IA respectueux de la définition de l’IA open source par l’OSI doit être publiée selon « les mêmes conditions ».
« La forme privilégiée pour apporter des modifications aux systèmes d’apprentissage automatique s’applique également à ces composants individuels ». Les modèles et les poids open source « doivent inclure les informations sur les données et le code utilisé pour dériver ces paramètres », résume l’Open Source Initiative.
L’autre phénomène de plus en plus courant est d’apposer des conditions d’usage même quand le modèle – ou le plus souvent ses poids/paramètres – dispose d’une licence conforme à la définition standard de l’open source par l’OSI. Or, les restrictions, souvent menées dans un but de protection contre les usages nocifs, ne sont pas conformes, par principe, à cette même définition.
Comme pour l’accès aux données, l’OSI se veut plus « coulante » qu’à l’accoutumée concernant les chartes éthiques. « La définition de l’IA Open Source ne guide pas spécifiquement les pratiques de développement de l’IA en matière d’éthique, de confiance ou de responsabilité, et ne les met pas en application », écrivent les membres de l’OSI. « Cependant, elle n’érige aucun obstacle qui empêcherait les développeurs d’adhérer à de tels principes, s’ils le souhaitaient », notent-ils. Et de les renvoyer vers le travail de l’OCDE en la matière.
De premiers soutiens, mais peu d’acteurs de poids
L’on s’éloigne ici d’une philosophie « libre à la vie, à la mort » qui faisait le panache des débuts de l’open source. Et c’est un choix délibéré, comme l’expliquait Ofer Hermoni, consultant en stratégie IA chez Stealth, cofondateur de la LF AI&Data et membre du comité éducation et sensibilisation de Generative AI Commons.
L’un des contributeurs du Model Openness Framework et du Model Open Tool, créés au sein de la LF AI&Data pour appliquer cette fameuse définition de l’OSI, justifiait auprès du MagIT la nécessité de rendre ce cadre accessible.
L’OSI a annoncé que dix-huit entreprises ou organisations ont approuvé (« endorsed ») cette version 1.0 de l’OCAID. Parmi ceux-là, un seul institut de recherche en IA de renom : EleutherAI. Sans trop de surprise, Meta ou Mistral AI ne se sont pas manifestés. Mais l’on compte également NextCloud, Mozilla, la communauté LLM360, CommonCrawl, Linagora Labs, Bloomberg Engineering, OpenInfra Foundation, SUSE, l’Eclipse Foundation, Mercado Libre, mais aussi… code.gouv.fr.
Percy LiangDirecteur du centre de recherche, modèles de fondation, Université de Stanford
Les porte-parole des acteurs cités sont plutôt enthousiastes à l’idée de respecter ce qui peut être vu comme une norme au vu de l’importance de l’OSI et ce malgré l’absence de contraintes légales concernant l’application d’une telle définition.
Une définition à éprouver sur le terrain
Un autre, plus sceptique, attend de voir. « Il est difficile de trouver la bonne définition de l’IA open source étant donné les restrictions sur les données, mais je suis heureux de voir que cette v1.0 exige au moins que le code complet pour le traitement des données (le principal facteur de la qualité du modèle) soit open source », note Percy Liang, directeur du centre de recherche consacré aux modèles de fondation au sein de l’Université de Stanford, dans un communiqué. « Le diable étant dans les détails, je suis sûr que nous aurons d’autres choses à dire lorsque nous aurons des exemples concrets de personnes essayant d’appliquer cette définition à leurs modèles ».
Pour l’heure, parmi les quelques modèles testés ayant passé la « phase » de conformité à l’OSAID, seules cinq collections/modèles la respectent : Pythia (EleutherAI), OLMO (AI2), Amber et CrystalCoder (LLM360) et le bon vieux T5 de Google. « Quelques autres ont été analysés et passeraient probablement s’ils modifiaient leurs licences/termes juridiques : BLOOM (BigScience), Starcoder2 (BigCode), Falcon (TII) », indique l’Open Source Initiative.
En revanche, Llama 2 de Meta, Grok de xAI, Phi-2 de Microsoft et Mixtral de Mistral AI échouent aux tests orchestrés par le groupe de travail de l’OSI.