NLP : les benchmarks GLUE et SQuAD ne sont pas conçus pour les développeurs
Bien que très utiles pour déterminer l’efficacité d’un modèle de traitement du langage naturel, les benchmarks NLP sont conçus originellement à des fins scientifiques. Heureusement, ils évoluent rapidement.
L’augmentation récente des jeux de données dédiés au traitement du langage naturel a entraîné une amélioration significative des modèles algorithmiques associés. Ils facilitent diverses tâches de compréhension et de génération d’écrits. Ces jeux de données sont également utilisés pour comparer les performances de différents modèles par rapport à un ensemble de standards. Ce sont des benchmarks qui servent à classer les meilleurs algorithmes.
Ces modèles NLP peuvent contribuer au développement d’applications pratiques dans les entreprises, comme de meilleurs chatbots, des outils de génération de mails et des assistants numériques améliorés. Mais les entreprises doivent procéder avec prudence. Un modèle populaire ne conviendra pas à tous les usages.
Utiliser un benchmark apporte un cadre de référence. Ces jeux de données préparés spécialement pour le NLP fournissent des indicateurs sur les performances du système, les capacités linguistiques et des paramètres comme la vitesse de traitement.
Des benchmarks qui évoluent rapidement
« Lentement, mais sûrement, l’évolution des benchmarks comme GLUE, SQuaD et Race aide les algorithmes d’interprétation automatisée de textes à se rapprocher de la compréhension humaine », explique Satyakam Mohanty, vice-président du service IT mondial de L&T Infotech.
Ces critères comprennent l’implication lexicale (la relation logique entre deux verbes), le découplage du bon sens de la connaissance, l’identification des dépendances syntaxiques (le mot ou le groupe de mots dont dépend la structure d’une phrase) et des coréférences (les éléments d’une phrase qui désignent la même entité). Ils sont essentiels à la compréhension d’une langue.
« Auparavant, il était difficile de modéliser et de prédire à partir d’un échantillon de phrases. La validation reste également difficile », explique Satyakam Mohanty.
C’est à ce moment qu’entrent en jeu ces cadres de développement. Ils aident à concevoir des modèles préentraînés pour des ensembles de données étiquetés, réalisés par des experts en linguistique. Par exemple, en utilisant l’implication lexicale avec GLUE, une personne peut facilement développer un module en s’appuyant sur un modèle préentraîné.
De même, SQuAD aide à répondre à des questions sur les paragraphes ou phrases non structurés. Les réponses ne seront pas correctes à 100 %, mais le benchmark aide à atteindre une précision de 60 à 70 %. Si ce score paraît faible pour certains spécialistes, ils peuvent toujours utiliser un modèle préconçu, puis l’affiner sans le reconstruire de zéro.
Différents phénomènes linguistiques à évaluer
Il est également important de garder à l’esprit que les benchmarks mesurent les phénomènes linguistiques de manière scientifique dans un environnement contrôlé, et que les résultats dans le monde réel peuvent varier, précise Hadayat Seddiqi, directeur de l’apprentissage machine chez InCloudCounsel.
Ces outils d’évaluation sont facilement battus par les meilleurs modèles, mais les chercheurs se rendent compte qu’ils comportent des lacunes à exploiter afin d’optimiser les modèles NLP. Les développeurs sont plus soucieux de construire quelque chose d’utile que de comprendre un phénomène autour du langage et de le perfectionner.
« C’est mauvais pour la science, mais pas nécessairement pour les applications commerciales », corrobore Hadayat Seddiqi.
Les développeurs doivent savoir dans quelle mesure certains phénomènes du langage doivent être modélisés en profondeur, et quand ils peuvent l’être en surface. Les meilleurs modèles actuels montrent qu’ils peuvent répondre à des questions avec les mêmes performances qu’un humain (dans les cas de GLUE et SQuAD), mais ils ne permettent pas de généraliser les résultats en dehors d’ensembles de données sélectionnés pour l’expérience.
« Cela en dit long sur la puissance et l’utilité de ces modèles, mais cela en dit tout autant sur l’ensemble de données sur lequel vous les entraînez », explique Hadayat Seddiqi.
Vers de meilleurs modèles NLP
D’une certaine manière, ces progrès récents sont à l’image de l’explosion des nouvelles techniques de computer vision, après la publication du vaste ensemble de données d’ImageNet. Ces nouveaux modèles de langage reposaient sur quelques milliers de jeux de données, étiquetés à des centaines de milliers aujourd’hui. Des ensembles de données comme GLUE ont élargi la portée des tests en multipliant les types de défis. Ce phénomène a facilité la création d’algorithmes compatibles avec de nombreux cas d’usage différents.
« Je crois que les progrès étonnants que nous constatons dans le NLP sont favorisés par l’évolution des benchmarks », expose Reggie Twigg, directeur du marketing produit chez ABBYY, un fournisseur d’outils d’OCR.
Ceux qui cherchent à appliquer le NLP veulent un algorithme permettant de comprendre des textes à des fins diverses ; de l’identification, de la classification à l’extraction d’entités dans des processus commerciaux.
Tous les benchmarks – GLUE, SQuAD et RACE – répondent à ce besoin. En clair, ils favorisent la création de modèles NLP capables d’extraire des informations importantes à partir de données non étiquetées et semi-structurées dans des documents et des messages connexes, tels que des mails.
« L’un des dangers des benchmarks, cependant, est qu’ils peuvent encourager les développeurs à se concentrer sur des améliorations incrémentales pour faire grimper leur algorithme dans le classement associé. Cela peut les décourager de proposer des approches plus risquées, mais innovantes », tempère Daniel Kobran, COO et cofondateur de Paperspace, une plateforme de développement d’intelligence artificielle.
Qui dit performance ne dit pas facilité d’intégration
Bien que les améliorations apportées aux outils d’évaluation reflètent de réels progrès, il est important de garder à l’esprit que ceux-ci sont élaborés par et pour les chercheurs en NLP. Ils doivent fournir une mesure objective des performances. Ainsi, ces scientifiques peuvent décider quels résultats et quelles approches valent la peine d’être poursuivis et publiés.
« Les développeurs ne font pas partie du public visé, pas plus que les techniciens d’une équipe qui mettent les modèles en production », assure Nate Nichols, directeur distingué de Narrative Science, un fournisseur d’outils de génération de langage naturel.
Toutes les autres considérations devraient être au moins aussi importantes que les performances tirées des benchmarks NLP. Il s’agit notamment d’évaluer la facilité de déploiement et la maintenance, la capacité à s’intégrer dans les flux de travail existants, la charge de travail requise, l’expérience et l’expertise internes, ainsi que le coût.
« Vous pouvez comparer ces benchmarks NLP à des bancs d’essai pour mesurer la puissance en chevaux et le couple d’une voiture » simplifie Nate Nichols. « Si vous achetez une voiture, le fait de connaître sa puissance peut vous donner une idée de ses capacités lors d’une course. Mais pour la plupart des gens, ce n’est qu’un critère d’évaluation parmi d’autres au moment de choisir un véhicule ».
Les autres facteurs à prendre en compte sont la taille, la vitesse, la puissance de traitement et la consommation d’énergie. Par exemple, le BERT de Google a inspiré divers modèles NLP comme le TinyBERT de Huawei, qui est sept fois plus grand et neuf fois plus rapide.
« Les projets de NLP n’échouent généralement pas parce que le modèle ou l’approche sous-jacente n’a pas été suffisamment performant par rapport à certains critères », précise Nate Nichols. « Ils échouent parce qu’il n’y a pas assez de données pour l’entraînement, ou parce qu’il n’y avait pas un niveau d’expertise suffisant pour déployer et maintenir le modèle, ou parce que l’application ou le produit entourant le composant NLP a changé de direction », conclut-il.
Les benchmarks populaires
Les jeux de données et benchmarks dédiés au NLP les plus populaires fournissent généralement des informations brutes pour l’entraînement de corpus de texte similaire. Ils sont utilisés pour tester les performances et comparer les résultats d’un modèle NLP au sein d’un classement. Voici les benchmarks les plus populaires.
SQuAD (2016)
Le Stanford Question Answering Data Set, dans sa version 1.1, est une collection de 100 000 paires de questions/réponses provenant de Wikipédia.
Le SQuaD 2.0, introduit en 2018, s’appuie sur cette base et ajoute 50 000 questions sans réponse conçues pour ressembler à des questions auxquelles on peut répondre. Le modèle NLP testé doit déterminer quand la bonne réponse n’est pas disponible.
RACE (2017)
Cet ensemble de données dédié à la compréhension de la lecture comprend plus de 28 000 extraits à faire lire par le modèle et 100 000 questions.
SWAG (2018)
Le Situations With Adversarial Generations contient 113 000 paires de phrases qui permettent à un algorithme de s’entraîner pour comprendre leur sens commun.
GLUE (2018)
Le benchmark General Language Understanding Evaluation permet d’évaluer la compréhension générale d’une langue par un modèle NLP. Pour cela, le test s’appuie sur neuf exercices.
Le SuperGLUE, introduit en 2019, comprend des exercices de compréhension plus difficiles et une boîte à outils logicielle.