LAYHONG - stock.adobe.com
ModernBERT : Answer.ai et LightOn acollent un turbo à BERT
En confiant les attributs de l’architecture des LLM à BERT, Answer.ai et LightOn espèrent prouver que ModernBERT a toute sa place dans les systèmes RAG aux côtés des LLM les plus en vogue.
LightOn, éditeur français spécialiste de l’IA générative cotée sur EuroNext Growth, a présenté un partenariat avec le laboratoire de recherche en IA californien, Answer AI.
Ensemble, les deux organisations ont mis sur pied ModernBERT, un projet open weight (sous licence Apache 2.0) qui – comme son nom l’indique – vise à moderniser BERT.
Pour rappel, BERT (Bidirectionnal Encoder Representations from Transformers) est un modèle de traitement du langage naturel né en 2018. Il s’appuie sur l’architecture Transformers, celle-là même qui anime les grands modèles de langage ayant fait le succès de ChatGPT. Comme cette architecture présentée en 2017, BERT est le fruit du travail de Google Research.
Quand un Transformer originel est composé d’un encodeur et d’un décodeur, et un LLM d’un décodeur uniquement (en tout cas la plupart du temps), BERT n’utilise qu’un encodeur. Celui-ci traite les données textuelles sous forme de tokens qu’il convertit en vecteurs. Or quand les modèles GPT ont pour tâche de prédire le prochain mot dans une phrase, BERT est idéal pour des tâches dites « discriminatives » : classification de textes (analyse des sentiments, détection de spam, assignation des documents, etc.) ou encore extraction d’entités nommées.
Comme BERT peut aussi prédire des mots dans un texte à trous, les chercheurs de Google ont immédiatement considéré qu’il peut être affiné afin de propulser des systèmes de question-réponse. Le modèle de deep learning a été utilisé pour concevoir des chatbots, des outils de traduction, mais aussi et surtout de recherche sémantique.
En ce sens, Google a poursuivi activement la mise à jour de BERT jusqu’en 2020.
BERT, la « Honda civic » du NLP
Pourquoi se tourner vers un modèle vieux de six ans alors qu’une partie de la communauté de l’IA a les yeux rivés vers le modèle o1 d’OpenAI, qui se concentre sur l’entraînement d’o3 ?
« En fait, un modèle frontière comme o1 d’OpenAI est comme une Ferrari SF-23. C’est un triomphe évident de l’ingénierie, conçu pour gagner des courses […] », illustrent les chercheurs d’Answer AI et de LightOn, dans un billet de blog. « Mais il faut une équipe spéciale pour changer les pneus et l’on ne peut pas s’en acheter une », souligne-t-il.
« BERT est plutôt comparable à une Honda Civic. C’est là aussi un triomphe technique à sa façon, puisqu’il est conçu pour être abordable, économe, fiable et extrêmement utile. Et c’est pourquoi ils [les modèles BERT] sont absolument partout ».
De fait, les modèles encodeurs, comme BERT, sont désormais l’un des rouages des architectures RAG.
« Les LLM ont occupé le devant de la scène ces dernières années, ils ont également suscité un intérêt renouvelé pour les modèles basés uniquement sur des encodeurs dans le domaine de la recherche d’informations », expliquent les chercheurs derrière le projet ModernBERT. « En effet, la recherche sémantique basée sur des encodeurs constitue un élément central des pipelines de génération augmentée par la recherche (RAG), où [ils] sont utilisés pour récupérer et fournir aux LLMs un contexte pertinent en fonction des requêtes des utilisateurs ».
Les modèles BERT sont également utilisés pour détecter des prompts toxiques ou router des requêtes vers le bon modèle incarnant un agent, poursuivent les chercheurs. Des tâches de pure classification.
Contrairement aux LLM qui peuvent atteindre 500 milliards de paramètres, BERT est principalement disponible en deux tailles : 340 millions et 110 millions de paramètres. Aujourd’hui, il pourrait entrer dans la catégorie des SLM, les petits modèles de langage. Par exemple, certaines variantes de Granite, le LLM d’IBM, font 340 milliards de paramètres.
Problème, BERT traite en entrée des séquences d’une longueur de 512 tokens… quand la prise en charge de 128 000 tokens en devient la norme du côté des LLM. Le modèle de deep learning n’a pas non plus la « taille de vocabulaire » – le nombre de mots uniques dans le jeu de données d’entraînement, exprimés en tokens – des plus grands modèles de langage (plus de 128 000 tokens, ramenés à 32 000 ou 52 000 par défaut). De fait, BERT a été entraîné avec un corpus de « 3,3 millions de mots », tandis que la plupart des LLM récents ont ingéré environ dix mille milliards de tokens, dont des bases de code.
L’exemple de la Honda Civic n’est pas anodin. Aux États-Unis et Japon, cette voiture nipponne à l’allure anodine peut – après quelques pièces changées et un investissement relativement mesuré – se transformer en un bolide de plus de 500 chevaux. C’est ce genre de rapport prix/performance que recherchent les scientifiques et les entreprises avec BERT.
RoPe, GeGLU, Flash Attention… ModernBERT hérite des LLM
La tendance n’est pas nouvelle. RoBERTa, DistilBERT, CamemBERT, FlauBERT… LightOn et Answer.ai s’inscrivent dans la tradition consistant à adapter BERT. Eux citent CrammingBERT, AcademicBERT, NomicBERT et (surtout) MosaicBERT, des projets plus récents qui ont tous à leur manière chercher à optimiser les performances du modèle NLP.
Dans leur cas les chercheurs d’Answer.AI et de LightOn soutenu un collaborateur d’Huggingface ont entraîné ModernBERT avec 2 000 milliards de tokens avec une séquence d’une longueur de 8192 tokens, à l’instar d’Alfred, une collection de LLM entraîné par LightOn et dérivé de Llama 2. La collection comprend deux modèles : ModernBERT-base – 149 millions de paramètres et large – 395 millions de paramètres.
Surtout, Answer.AI et LightOn ont adapté les mécanismes qui font la force des architectures Transformer récente pour les adapter à ces modèles « encoder only ».
Outre l’allongement de la fenêtre de contexte, ils font « sauter » plusieurs limitations de BERT. La première n’est autre que le positionnement statique (« absolu ») des embeddings. Pour ce faire, ils ont opté pour le mécanisme de rotation du positionnement des embeddings (Rotaty Positionnal Embeddings ou RoPE).
« Ce choix est motivé par les performances éprouvées de RoPE dans des modèles de langage dotés d’une fenêtre de contexte court et long », écrivent les chercheurs. Meta, Mistral AI, Google DeepMind et bien d’autres ont adopté ce mécanisme.
L’implémentation de RoPe est aussi un moyen pratique pour allonger la fenêtre de contexte. Par ailleurs, ModernBERT a le droit à une fenêtre d’attention hybride, mixant attention locale et globale. Une solution inspirée du travail effectué par Google DeepMind sur les LLM Gemma, et chéri par Mistral AI.
En outre, ModernBERT utilise la fonction d’activation GeGLU, une évolution de GeLU, le mécanisme introduit par BERT. Par ailleurs, les chercheurs exploitent un bloc de prénormalisation couplé à LayerNorm. Cela permet de simplifier l’architecture tout en stabilisant la consommation de VRAM lors de l’entraînement.
Par ailleurs, ModernBERT profite de l’implémentation du framework Flash Attention afin d’optimiser la performance des kernels d’Attention. « ModernBERT utilise un mélange de Flash Attention 3 pour les couches d’attention globale et de Flash Attention 2 pour les couches d’attention locale », précisent les chercheurs.
Flash Attention et ROPE sont utilisés de concert pour optimiser le traitement des séquences lors de l’unpadding, une méthode qui supprime les tokens de remplissage inutiles ajoutés pour uniformiser la longueur des séquences pendant l’entraînement. L’unpadding regroupe toutes les séquences d’un mini-lot en une seule séquence continue, permettant d’économiser des ressources tout en maintenant une gestion efficace des masques d’attention et les informations positionnelles.
Un modèle à exécuter à la maison
Le tout permet d’adapter BERT aux architectures GPU modernes. Les modèles ModernBERT ont été entraînés pendant 425 heures (environ 18 jours au total) à l’aide d’un serveur HPE équipé de huit GPU Nvidia H100, installé dans un data center d’Orange Cloud Avenue. En revanche, la cible d’inférence est bien moins gourmande. Du côté serveur, les chercheurs listent les Nvidia T4, A10 et L4, les accélérateurs d’entrée de gamme chez le géant fabless. Côté station de travail, ils évoquent les RTX 3090 et 4090 des GPU haut de gamme autrefois réservés aux jeux vidéo. Ceux-là sont souvent très proches de leurs équivalents professionnels – tout en étant deux fois moins chers.
Pour ce faire, ModernBERT reprend certains des attributs de MosaicBERT, une variante de BERT entraîné par MosaicML chez Databricks. Les chercheurs d’Answer AI et de LightOn optimisent les traitements non pas exclusivement pour réduire les coûts d’exécution, mais pour obtenir un modèle qui respecte les objectifs traditionnels de BERT en cherchant à surpasser son ancêtre. Pour cela, ils ont utilisé des méthodes de planification d’entraînement – en trois phases – et de montée en charge afin de maximiser le taux d’apprentissage du modèle.
« ModernBERT représente une amélioration de Pareto sur toutes les tâches par rapport aux modèles BERT et RoBERTa d’origine, avec de meilleures performances dans chaque catégorie d’évaluation », avancent les chercheurs. Il serait également deux fois plus rapide à l’inférence que ses deux aînés tout en ayant la même fenêtre de contexte que certains modèles Llama.
Reste maintenant aux entreprises et aux autres ingénieurs à éprouver ModernBERT en production. LightOn assure que le modèle est idéal pour être des déploiements locaux, notamment en France et en Europe.