FQuAD : la langue française a elle aussi besoin de benchmarks NLP
La startup Illuin Technology mise sur FQuAD, un jeu de données de 60 000 questions-réponses réservé au français, pour égaler les performances des algorithmes NLP en anglais.
Le traitement automatique du langage naturel est une technique qui séduit bon nombre d’entreprises. Elles veulent pouvoir faire de la recherche sémantique dans des documents, corréler des informations dans un texte ou dans un enregistrement vocal. Le NLP favorise la détection de risque, l’analyse de sentiments ou encore la compréhension de documents complexes.
Seulement, la majorité des recherches en la matière ont été menées en anglais. Si les GAFA proposent des technologies issues du NLP au grand public en langue française, les solutions capables de convenir aux entreprises se comptent sur les doigts de la main.
Cela ne veut pas dire que le français est oublié par les chercheurs et les éditeurs. Facebook AI Research et l’Inria (via son équipe ALMAnaCH) ont travaillé ensemble à la conception de CamemBERT (entraîné sur 138 Go de texte Wikipédia en français), publié à la fin du mois d’octobre 2019. Ce modèle de langage en français s’appuie sur RoBERTa, une méthode de préentraînement pour les systèmes NLP autosupervisés. Ces deux éléments s’appuient eux-mêmes sur BERT (Bidirectionnal Encoder Representations from Transformers), un modèle de langage anglais conçu et rendu public par Google en 2018. FlauBERT est une autre variante de ce modèle adaptée à la langue de Molière.
Seulement, les jeux de données de questions-réponses adaptées à la langue française ne sont pas nombreux. En effet, la majorité des benchmarks NLP s’appuie sur des jeux de questions-réponses en anglais pour entraîner les algorithmes. Parmi les plus connus, l’on trouve GLUE (General Language Understanding Evaluation) et SQuAD (Stanford Question Answering Data Set).
SQuaD, concocté par des chercheurs de l’université de Stanford, est devenu la référence en la matière pour l’anglais. Publié en 2016, ce jeu de données contient 100 000 questions-réponses, agrémentées en 2018 de 50 000 questions sans réponses, auxquelles le modèle NLP évalué doit pouvoir répondre ou indiquer quand il n’est pas possible de le faire.
Il s’agit de la source d’inspiration d’Illuin Technology, une société fondée en 2017 qui développe des solutions d’intelligence artificielle sur mesure pour les grands groupes et les PME/startup.
Illuin Technology mise sur FQuAD et CamemBERTQA
La jeune entreprise est « née dans le berceau de CentraleSupélec et de l’université Paris Saclay », explique Robert Vesoul, fondateur et PDG d’Illuin Technology. D’ailleurs, il codirige la chaire d’innovation digitale de CentraleSupélec depuis 5 ans. La startup défend une appétence forte pour la recherche en IA et des connaissances des systèmes IT portés par ses 43 employeurs, ingénieurs IT et en Data Science.
Robert VesoulIlluin Technology
« Notre promesse c’est de faire arriver l’IA dans le système d’information des entreprises. Ce n’est pas juste un problème d’algorithme, c’est à la fois sourcer la donnée en amont, être capable de s’intégrer avec des architectes existantes pour que finalement l’IA soit utilisable par les métiers » vante Robert Vesoul.
Après avoir développé des solutions pour le groupe spécialiste du recrutement Randstad (qui est aussi actionnaire minoritaire de la startup), pour le groupe DPD (filiale de la Poste) pour qui la startup a conçu un agent conversationnel (20 000 conversations par jour) ou encore le Crédit Agricole, la startup a mis au point FQuAD (French Question Answering Data Set), un benchmark NLP dédié nativement au français.
« Nous agissons dans tous les domaines de la data science, mais il est vrai que le NLP est notre domaine d’excellence. Depuis deux ans avec la publication de SQuaD et BERT, il y a un momentum qui a changé les paradigmes du traitement du langage naturel et nous étions présents à ce moment-là, nous y avons mis une part plus importante de notre R&D », explique Robert Vesoul.
Remarquant un besoin fort de la part des entreprises francophones, Illuin travaillait avant la publication de CamemBERT à la conception de ce data set de questions-réponses en français. En février 2020, la startup a publié un article scientifique (rédigé en anglais…) pour décrire ce jeu de données, FQuAD, et CamemBERTQA, un modèle de questions/réponses basé sur CamemBERT et entraîné sur FQuAD.
Lors de la publication, le data set contenait 25 000 paires, mais Illuin a déjà atteint 60 000 questions-réponses et veut se rapprocher de la barre des 100 000 qui est le Graal du benchmark NLP. « CamemBERTQA était encore un peu en deçà de la performance humaine », affirme le PDG. En effet, CamemBERTQA obtient un score F1 de 88 % et 77,9 % de corrélation exacte quand il est entraîné sur la première version de FQuAD. Un humain obtient un score moyen de 92,1 % et 78,4 % de réponses exactes. « Avec les 60 000 paires de questions/réponses, nous dépassons les 90 %, avec les étapes de fine tuning, nous allons dépasser le score humain cet été ».
Pour construire le jeu de données, les chercheurs d’Illuin ont comparé les performances de CamemBERTQA sur des questions-réponses traduites de l’anglais et issues du SQuAD 1.1. En parallèle, ils ont effectué les mêmes essais sur le data set FQuAD conçu nativement en français avec l’aide de 18 étudiants de CentraleSupélec.
Résultat, l’entraînement sur le jeu de questions-réponses traduit donne de moins bons résultats avec CamemBERTQA alors que ce n’est pas le cas pour CamemBERT. Pour poser ces questions, les chercheurs se sont appuyés sur 1 769 articles Wikipédia dont 145 ont été choisis pour réaliser des échantillons de paragraphes de 500 caractères. « Nous avons sélectionné des articles bénéficiant d’une bonne qualité sémantique et avons pris la précaution d’effectuer ce tri dans diverses thématiques », explique Robert Vesoul. Les étudiants ont annoté ces paragraphes avec les questions et les réponses possibles. Ensuite, les chercheurs ont comparé les résultats de plusieurs annotateurs.
« La courbe de performances commence à s’aplanir, mais les améliorations sont régulières. Peu de temps après la publication, la communauté a testé CamemBERTQA sur les leaderboards en langue anglaise et a compris l’intérêt de nos travaux », assure-t-il.
Concrétiser rapidement les travaux de recherche
Robert VesoulIlluin Technology
Les clients d’Illuin l’ont bien compris aussi. « Notre travail actuel, c’est de déployer avec toute une série de clients pilotes, des projets qui vont utiliser cette capacité à faire de la recherche dans des corpus techniques, commerciaux, juridiques, médicaux, etc. Ce sont des investissements importants en R&D et nous voulons les transformer rapidement en cas d’usage pour mettre au point une toute nouvelle génération de moteur de recherche », détaille Robert Vesoul.
Illuin veut également développer des solutions basées sur la reconnaissance vocale dans le but de simplifier la recherche dans de la documentation technique en français. Robert Vesoul évoque la possibilité pour un médecin d’obtenir des réponses sur des résultats médicaux ou bien un technicien de maintenance de consulter une fiche technique d’un composant ou d’une machine à la voix.
Un deuxième champ d’exploration vise à améliorer l’extraction de données automatisées afin de faciliter leurs intégrations dans les systèmes informatiques d’une entreprise, typiquement pour insérer des données clients depuis un courriel dans un CRM.
Dans l’article scientifique, les quatre auteurs constatent que le modèle répond beaucoup mieux aux demandes d’informations structurées : date, lieu ou encore chiffre. Il se comporte de la même manière pour trouver des adjectifs et des personnes. Les questions de type « quand », « où » et « combien » sont donc bien assimilées. Cependant, CamemBERTQA a plus de difficulté avec les interrogations de type « comment » ou les formulations vagues. Les chercheurs expliquent qu’un encadrement renforcé lors de la phase d’annotations des corpus utilisés pour constituer FQuAD peut améliorer les performances.
« Notre modèle CamemBERTQA est à la fois généraliste, mais il peut aussi s’appliquer à des domaines spécifiques. Par exemple, il est capable de répondre correctement aux questions sur les jurisprudences. Dans des domaines où le vocabulaire est plus technique, il est intéressant de compléter cet entraînement avec des corpus industriels. Cela intéresse déjà plusieurs entreprises », déclare Robert Vesoul.
FQuAD n’est pas le seul phare à l’horizon pour le NLP français
Robert VesoulIlluin Technology
En ce sens, Illuin Technology adopte la technique du compte-gouttes, si cher à Google. « Nous allons donner l’accès à une partie de notre modèle et nous allons conserver la propriété sur d’autres parties comme des entraînements spécifiques à nos usages avant de les ouvrir à la communauté », prévoit le PDG de la startup. « Nous voulons faire avancer l’état de l’art du NLP en français, mais nous restons une entreprise qui souhaite en premier lieu développer des solutions pour nos clients ».
Seulement, FQuAD peut faire l’effet d’une goutte d’eau dans l’océan du NLP tant les géants de l’IT disposent de ressources de calcul et n’hésitent pas à faire appel à des services comme AWS Mechanical Turk pour faire annoter les corpus de textes et préparer les jeux de données de questions-réponses. C’est le même constat opéré par Etalab, « le Chief Data officer » de l’État français.
L’administration a annoncé en octobre 2019 le lancement du projet PIAF, qui est lui aussi un benchmark de questions-réponses en français, cette fois-ci totalement open source. Plutôt destiné à l’usage de l’administration, ce jeu de données profite déjà de plus de 5 000 contributions d’annotateurs (à la mi-mars 2020) à travers une plateforme de crowdsourcing. Les responsables de PIAF terminent la préparation de leur première publication. Ils constatent une forte complémentarité entre FQuAD et PIAF dont les méthodologies sont très proches.