mixmagic - stock.adobe.com

EuroLLM-9B : le modèle multilingue qui veut renforcer la souveraineté européenne en IA

Développé par CentraleSupélec et plusieurs partenaires européens, EuroLLM-9B est un grand modèle de langage open source et open weight conçu pour les langues européennes. Le projet vise à réduire la dépendance aux modèles extra-européens, tout en garantissant la transparence et la conformité avec l’AI Act.

Un grand modèle de langage pensé pour l’Europe. EuroLLM-9B est un modèle multilingue qui couvre les vingt-quatre langues officielles de l’Union européenne, mais aussi onze autres langues comme le galicien, le catalan, le chinois, le coréen (un des soutiens du projet est un grand groupe sud-coréen), le japonais, le hindi, le norvégien ou encore le turc.

Open source et open-weight

Ce LLM est le fruit de la collaboration de plusieurs organisations privées et publiques, dont des institutions académiques comme CentraleSupélec, l’Université d’Édimbourg ou Sorbonne Université.

Pour Pierre Colombo, du MICS (le laboratoire de recherche en mathématique et en sciences informatiques de CentraleSupélec) et fondateur d’une LegalTech (Equall), « ce modèle, entièrement open source et “open-weight”, vient répondre aux besoins des langues européennes et rivalise avec les approches internationales les plus performantes ».

Pour mémoire, « open-weight » désigne des modèles où les « poids » (weights) d’un modèle pré-entraîné sont publiquement accessibles.

Le LLM-9B est disponible en accès libre sur Hugging Face (pré-entraîné et post-entraîné).

Un entraînement sur l’infrastructure EuroHPC

Comme son nom l’indique, le LLM possède 9 milliards de paramètres. Il a bénéficié d’un entraînement à grande échelle sur l’infrastructure EuroHPC (dont le supercalculateur MareNostrum5). Le modèle a mobilisé 400 GPU Nvidia H100.

Après son pré-entraînement, EuroLLM-9B a fait l’objet d’un post-entraînement (instruction tuning) pour le spécialiser dans le suivi d’instructions complexes, le dialogue multi-tour et l’adaptation à divers cas d’usage. « Cette étape a été réalisée en recourant exclusivement à des jeux de données publics », assure le communiqué du projet.

Résultat, le LLM aurait des performances en traduction multilingue supérieures à des modèles reconnus tels que Gemma-2-9B de Google ou Aya-expanse-8B.

Vers un modèle multimodal

Le projet ne constitue qu’une première étape. L’équipe EuroLLM confie qu’elle travaille déjà sur un modèle multimodal grâce à une nouvelle bourse de 5 millions d’euros.

Ce futur modèle combinera données textuelles et visuelles, avec pour ambition d’étendre encore les capacités de l’IA européenne.

Au-delà des performances techniques, EuroLLM-9B veut être « un jalon de la souveraineté européenne des modèles de langage », dans le respect des principes de l’AI Act et des principes de souveraineté ; « des principes chers à CentraleSupelec » assure la prestigieuse école d’ingénieurs.

Les membres du projet EuroLLM-9B

Le laboratoire MICS de CentraleSupélec (Université Paris-Saclay), Unbabel, l’Instituto Superior Técnico, l’Instituto de Telecomunicações, l’Université d’Édimbourg, Aveni, Equall, l’Université d’Amsterdam, Naver Labs et Sorbonne Université.

Pour approfondir sur Data Sciences, Machine Learning, Deep Learning, LLM