IA Générative : Mistral AI ou la voie de l’open source avec « licence commerciale »
Pour contrer les supers modèles et leurs milliards de paramètres, la startup française Mistral AI mise sur l’open source et la spécialisation des modèles d’IA générative – grâce aux données des entreprises qui garderont la main sur l'ensemble de la stack.
105 millions d’euros levés en amorçage (seed). C’est la performance accomplie en juin par une startup de l’intelligence artificielle fondée par trois Français, Mistral AI alors qu’elle n’avait été créée qu’en avril. Cette première levée de fonds s’explique en fait par les CV de ses fondateurs.
Car l’entreprise ne dispose pas encore de produit. Et elle n’en proposera pas avant 2024. Pour les investisseurs (essentiellement européens), la participation de trois chercheurs – Timothée Lacroix, Guillaume Lample et Arthur Mensch – constituait néanmoins un argument suffisamment convaincant.
Trois chercheurs à la culture open source aux manettes
Les deux premiers – Timothée Lacroix, Guillaume Lample – travaillaient en effet précédemment sur le modèle open source d’IA générative de Meta, LLaMA. Quant au troisième, Arthur Mensch, il arrive tout droit de Google DeepMind.
Figures reconnues de la recherche en IA, les fondateurs de Mistral AI assurent pouvoir offrir une alternative aux modèles LLM propriétaires, en particulier celui d’OpenAI, largement promu par Microsoft au travers d’Azure.
Comme le soulignait Arthur Mensch (aujourd’hui CEO de Mistral AI), lors de la conférence IMAgine Day IA Génératives, la création de la startup est née d’une idée : proposer dans l’espace européen une alternative « beaucoup plus ouverte ».
« Notre positionnement est mondial, mais nos premiers partenaires seront européens », indique-t-il. Un point qui devrait se traduire par des performances améliorées des modèles sur les langues européennes. « S’entraîner sur plusieurs langues à la fois permet un transfert positif entre les langues, si tant est qu’on le fasse correctement. Et nous mettrons beaucoup de Français dans le mix. »
Mistral n’entend pas se mesurer frontalement à des acteurs tels qu’OpenAI. « Nous nous positionnons aujourd’hui comme un entraîneur de modèles. Nous allons entraîner la couche basse, à la fois complexe et onéreuse, de cette technologie d’IA générative », clarifie son dirigeant.
Autre différenciateur revendiqué par Mistral : l’autonomie retrouvée des entreprises utilisatrices.
« Nous voulons donner les clés des modèles pré-entraînés afin de spécialiser les modèles de langage aux applications des entreprises, à leurs diverses fonctions, internes comme externes avec la création de nouveaux produits ou logiciels offrant des interfaces différentes et révolutionnant l’interactivité avec les systèmes informatiques », vante Arthur Mensch.
Des modèles plus petits, mais spécialisés et bien entraînés
La promesse de la jeune pousse, face à de grands modèles de langage généralistes, c’est donc des modèles pré-entraînés à spécialiser en fonction des spécificités de chaque entreprise, et sans dépendance technologique vis-à-vis du fournisseur. Une promesse qui n’est pas sans rappeler celle d’une autre pépite française de l’IA Générative, LightOn.
Mistral AI prévoit les premières mises en production pour certaines fonctions métiers à compter de 2024. L’éditeur annonce une « première release début 2024. » Et s’il indique rechercher des partenaires commerciaux pour le développement de preuves de faisabilité (PoC), il reste avare de détails sur sa roadmap précise.
Pour convaincre, le CEO Arthur Mensch le martèle : la spécialisation des modèles se fera sur les données des entreprises et il leur donnera la possibilité « de gérer l’ensemble de leur stack elles-mêmes. C’est un contre-positionnement par rapport à des acteurs comme OpenAI ou Anthropic qui refusent la mise à disposition entière des modèles. Cela les oblige à avoir des modèles très gros, car généralistes. À moyen terme, cela posera une question de coûts. »
Et tout comme LightOn, Mistral AI n’entend pas participer à la guerre des paramètres. Proposer des modèles plus petits signifie par conséquent une plus grande spécialisation et des coûts d’exploitation moindres. C’est en tout cas la promesse.
Le recours à des modèles plus petits (3 milliards de paramètres par exemple) devrait par ailleurs contribuer à réduire la facture associée à l’inférence, y compris en termes de bilan carbone, rappelle Arthur Mensch.
Autre argument en faveur du « small is beautifull », l’usage de modèles en mode on-premise et spécialisé impose des versions plus petites. « [Mais] nous savons que pour un grand nombre de cas d’usage, un modèle de 3 milliards de paramètres, très bien entraîné, suffit », argue le CEO de la jeune pousse française. À titre de comparaison, les grands modèles fermés tournent autour de 1 000 milliards de paramètres.
Surpasser les performances des modèles open source actuels
Avec des fondateurs à la culture open source, la startup entend poursuivre sur voie. Mais en fournissant « des modèles open source bien meilleurs que ceux qui existent actuellement. » Selon Arthur Mensch (qui s’exprimait le 19 juin, avant la sortie de LLaMA 2), les alternatives les plus abouties en open source restent « largement en dessous des offres commerciales et fermées. »
« Cela ne devrait pas être le cas », regrette le cofondateur. Dans ce contexte, Mistral AI prévoit « qu’une grande partie des modèles » qui seront entraînés par ses soins relèvera de l’open source, « avec une licence commerciale ».
Les dirigeants de la startup estiment que la valeur réside moins dans le modèle lui-même que dans sa spécialisation, notamment à une tâche spécifique, et à la réduction de sa taille. Pour Arthur Mensch, la plus-value consiste en outre à fournir des outils permettant de déployer et de spécialiser facilement ces modèles sans trop de connaissance métier préalable.
Pour générer des revenus, Mistral AI ne compte pas sur les modèles eux-mêmes, même si ceux-ci devront être à la pointe dans l’écosystème d’open source. Ses recettes, la startup les collectera au travers de services d’intégration dans les systèmes, de préparation des jeux de données pour la spécialisation et enfin de déploiement (« à basse latence ou à haute capacité »).
Des modèles entraînés de zéro pour progresser
Pour concevoir ces modèles bien entraînés, un facteur s’avère plus critique que jamais : la qualité des données. « C’est un enjeu majeur », insiste le dirigeant. Et cela le sera aussi pour le pré-entraînement réalisé par Mistral AI à partir des données du Web (open web). L’éditeur travaille donc au développement d’outils spécialisés pour l’amélioration de la qualité de ces données.
Il les exploitera pour entraîner de zéro ses modèles. Car la startup repartira d’une feuille blanche. « Pour disposer des meilleurs modèles, il faut un peu tout repenser. Choisir l’architecture et l’optimisation correctement. C’est préparer les meilleurs datasets. En partant de modèles existants, les gains seraient en réalité marginaux », justifie Arthur Mensch.
Pour les données, Mistral va, comme OpenAI avant lui, crawler Internet, mais complété par des tâches de nettoyage des données pour en retirer notamment « ce sur quoi nous n’avons pas le droit de nous entraîner. »
La législation pourrait néanmoins complexifier le développement d’une alternative aux offres LLM des multinationales. Arthur Mensch juge la dernière version de l’AI Act « trop floue et insuffisamment bien définie pour permettre aux acteurs du secteur d’innover. » Le cofondateur se dit néanmoins « très confiant » sur le soutien des pouvoirs publics et les évolutions du règlement européen au cours des prochains mois.
« Ce qui n’est pas désirable, c’est que deux ou trois acteurs américains monopolisent la discussion et qu’ils décident des biais, de l’orientation culturelle des modèles qu’on déploie. L’angle open source que nous avons retenu fait partie de notre stratégie éthique visant à démocratiser ces technologies de manière responsable », lance le chercheur désormais entrepreneur.