Sergey Nivens - Fotolia

IA générative : Databricks contourne l’approche propriétaire d’OpenAI

Databricks lance Dolly 2.0, un modèle de langage de suivi d’instructions open source « commercialement viable ». Alors que la plupart des projets de recherche s’appuient sur des données synthétiques produites à l’aide des technologies propriétaires d’OpenAI, l’éditeur prend le chemin opposé et propose un jeu de données d’entraînement ouvert, sans aucune restriction commerciale.

par

Gaétan Raoul, LeMagIT

Publié le: 13 avr. 2023

Databricks lance Dolly 2.0, un modèle de langage de suivi d’instructions open source « commercialement viable ». Alors que la plupart des projets de recherche s’appuient sur des données synthétiques produites à l’aide des technologies propriétaires d’OpenAI, l’éditeur prend le chemin opposé et propose un jeu de données d’entraînement ouvert, sans aucune restriction commerciale.

Databricks voulait prouver qu’il était possible de proposer un modèle de langage open source et économique.

Ce faisant, il a découvert que c’est moins la taille du modèle NLG qui compte, mais la qualité de son jeu de données pour produire un modèle de suivi d’instructions semblable à celui de ChatGPT.

C’est dans cette optique que l’éditeur avait proposé Dolly il y a quelques semaines. Ce modèle démonstrateur peut s’exécuter sur une station de travail ou en dépensant quelques dizaines d’euros dans un service cloud.

Des solutions open source bridées par l’utilisation des services d’OpenAI

Dolly est un clone du modèle GPT J-6B du laboratoire EleutherAI. Il s’agit d’un « petit » modèle de langage open source doté de 6 milliards de paramètres. Databricks l’a entraîné sur le jeu de données d’instructions synthétiques d’Alpaca, formé par des chercheurs de l’Université de Stanford sur la base du projet LlaMa, de Meta.

Ces 52 000 paires de questions – réponses ont été générées à l’aide du modèle text-da-vinci-003, l’une des variantes de GPT 3.5 pensé par OpenAI. Problème, OpenAI interdit formellement l’utilisation de ses propres modèles pour produire des solutions concurrentes aux siennes. Les chercheurs de Stanford ont donc proposé le jeu de données sous la licence Creative Commons NC 4.0. Celle-ci restreint tout usage commercial d’un tel data set.

Or, selon Ali Ghodsi, CEO et cofondateur de Databricks, un certain nombre de clients souhaitaient pouvoir utiliser Dolly commercialement, pour leur propre usage ou comme fondation d’un produit. « C’est la question qui revenait sans cesse de la part de nos clients : comment puis-je utiliser Dolly dans un projet commercial ? », affirme-t-il.

En réponse à cette demande, Databricks a annoncé le 12 avril la disponibilité de Dolly 2.0. À l’instar de la première mouture, l’éditeur a choisi un modèle créé par EleutherAI : Pythia-12B. « Nous avons essayé GPT J-6B et Pythia-12B qui, comme son nom l’indique, a deux fois plus de paramètres », déclare Ali Ghodsi. Pythia-12B a plus de paramètres, mais a également été entraîné sur un plus grand nombre de jeux de données. « Les résultats sont meilleurs », constate-t-il. Le dirigeant en conclut qu’un modèle disposant entre 10 et 20 milliards de paramètres se trouve « dans une bonne fourchette » pour concevoir une application inspirée de ChatGPT.

Surtout, Databricks se devait de proposer un jeu de données qui n’empêche pas la commercialisation d’une solution dérivée.

Quand le jeu de données importe plus que le modèle

L’éditeur s’est penché sur la manière dont OpenAI a mis au point le data set d’un de ses agents conversationnels. Comme l’entreprise soutenue par Microsoft a récemment fermé les portes de sa R&D, Databricks s’est appuyé sur l’article de recherche consacré à InstructGPT, le projet qui a inspiré la création de ChatGPT.

Afin de concevoir InstructGPT, OpenAI a utilisé les services de deux sociétés et de 40 annotateurs pour rassembler 13 000 paires de questions – réponses originales. Pour obtenir un résultat similaire, Databricks s’est tourné vers ses 5 000 employés dans 40 pays en leur proposant une sorte de concours au terme duquel les 20 participants les plus actifs ont été récompensés. En une semaine, l’éditeur a pu rassembler plus de 15 600 interactions en langue anglaise s’appuyant uniquement sur la connaissance de centaines d’annotateurs et sur Wikipédia. Les paires de questions-réponses sont réparties dans sept catégories : des questions ouvertes, des questions fermées, de l’extraction d’information depuis Wikipédia, des résumés de contenus disponibles depuis Wikipédia, des propositions d’idées, de la classification et de la génération de textes.

Ce jeu de données nommé databricks-dolly-15k est disponible sous la licence CC Attribution-ShareAlike 3.0. En clair, celui-ci peut être partagé et adapté dans les mêmes conditions que la licence originelle. Il faut donc attribuer l’œuvre à Databricks et la repartager si elle a été modifiée. Toutefois, la licence choisie n’empêche aucunement la commercialisation d’un service dérivé.

Si l’entreprise ne prétend pas fournir le modèle le plus performant disponible à ce jour, le dirigeant de Databricks croit que le jeu de données servira aux entreprises comme aux laboratoires de recherche. « Je pense que presque tous les modèles LLM qui sortiront prochainement utiliseront ce data set », parie-t-il.

Bien que le jeu de données soit intéressant, il n’échappe pas à quelques impairs. Certaines informations ne sont déjà plus à jour. Par exemple, un point sur la réforme des retraites en France mentionne le report de l’âge légal de départ de 62 à 65 ans en 2030 au lieu de 64 ans.

Une multiplication des cas d’usage commerciaux

Selon Ali Ghodsi, plusieurs clients de Databricks souhaitent utiliser un projet comme Dolly 2.0 pour leur usage. « Un laboratoire pharmaceutique nous a contactés en nous expliquant qu’il souhaitait constituer une base de données de dossiers médicaux électroniques pour faire des résumés des pathologies », illustre-t-il.

Deux compagnies d’assurance auraient pour projet d’utiliser un modèle LLM pour « lire » les réclamations et demandes d’indemnisation afin de prémâcher le travail des équipes de gestion des risques.

« Un troisième cas d’usage nous a été soumis par une société marketing souhaitant traduire des communiqués de presse dans 80 langages », poursuit Ali Ghodsi.

De son côté, Databricks a développé en interne un outil de support disponible depuis Slack qui renseigne l’utilisation de sa plateforme (entre autres) en faisant des liens directs vers sa documentation.

De la suite dans les idées

Dolly 2.0 ouvre donc la voie à l’usage commercial d’un modèle inspiré des travaux d’OpenAI et de Meta. Pour l’instant, Databricks n’encadre pas ce projet d’un dispositif particulier, à l’instar d’Azure OpenAI ou du Playground d’OpenAI. L’éditeur se contente d’encourager ses clients et prospects à se lancer dans des projets sur sa plateforme.

« Nous voulons que les gens puissent entraîner et affiner des modèles LLM, mais aussi les déployer eux-mêmes sur Databricks », confirme Ali Ghodsi qui voit là une nouvelle charge de travail à accueillir sur la plateforme de traitement de données.

Databricks prévoit tout de même d’effectuer des annonces en juin prochain lors de sa conférence annuelle. D’après le CEO, il s’agit de mettre à disposition des entreprises des accélérateurs pour ingérer leurs données sur la plateforme, d’entraîner et d’inférer « plus facilement » Dolly 2.0 et d’autres modèles. Pour sa part, AWS vient d’annoncer la préversion de Bedrock, un service consacré à l’affinage et l’inférence de modèles de fondation.

Pour l’heure, Databricks maintient son positionnement. Il prône la transparence vis-à-vis de l’accès au code source des modèles et aux données d’entraînement, mais également la nécessité pour les entreprises d’utiliser des modèles d’IA spécialisés.

« Nous espérons que l’industrie suivra et que beaucoup de modèles et d’ensembles de données seront partagés par la communauté dans le monde entier », avance Ali Ghodsi. « Ainsi, nous pourrons bénéficier d’une plus grande transparence dans ce domaine, au lieu que quelques entreprises ayant investi massivement soient les seuls à avoir la maîtrise et la propriété de grands modèles ».

IA générative : Databricks contourne l’approche propriétaire d’OpenAI

Des solutions open source bridées par l’utilisation des services d’OpenAI

Quand le jeu de données importe plus que le modèle

Une multiplication des cas d’usage commerciaux

De la suite dans les idées

Pour approfondir sur Intelligence Artificielle et Data Science

« Delta Lake est mort » (Benoît Dageville, Snowflake)

Les clés pour comprendre le bras de fer entre Snowflake et Databricks

IA générative : Databricks étend sa couverture fonctionnelle

Rachat de Tabular : Databricks défend sa décision