Traitement automatique du langage : l’Inria et Cap Digital font l’inventaire
A l’occasion de la rencontre Iliatech, entièrement autour du traitement automatique du langage, l’Inria et Cap Digital ont présenté un ensemble de projets, cartographiant l’état des technologies et des applications en cours. Si l’extraction et la recherche d’information brillent, l’interprétation et l’analyse sémantique doivent encore progresser.
Les technologies du traitement automatique du langage (TAL) ont évolué et trouvent aujourd’hui leur valeur. C’est un peu le sentiment que l’on a au sortir de la rencontre Iliatech qui s’est déroulée mercredi 20 octobre dans les locaux de l'Inria. Une journée entièrement réservée à des projets du TAL, qui confrontent chercheurs, linguistes et sociétés travaillant ensemble sur le marché de niche de l’analyse et du traitement automatique du langage. Démonstration à l’appui, car aujourd’hui il s'agit d'entrer de plain pied dans les applications.
Sur ce terrain, l’innovation va bon train, au regard des start-ups et projets académiques venus présenter leurs outils. Lingway développe ainsi un outil d’analyse automatique de la très tendance e-reputation. L’idée ? exploiter les sciences du TAL pour analyser automatiquement l’opinion dans les textes placés par exemple sur les blogs, réseaux sociaux ou encore forum et cartographier l’influence. La société s’appuie pour cela sur son moteur de text-mining Lingway KM.
Kwaga, de son côté, travaille sur une solution intelligente de tri et de hiérarchisation d’emails basée sur le contexte du message (destinataire, émetteur, historique) pour les utilisateurs de Gmail, notamment. “Kwaga ajoute à chaque mail un contexte, sur la personne qui envoie le mail, son historique avec vous, et détermine l’urgence du mail”, explique son Pdg, Philippe Laval. Objectif : repérer ce qui est important et hierarchiser le flux de messages.
Le projet Watch System Assistance, quant à lui, permet de générer automatiquement des textes structurés à partir de tableaux de données et de croiser ainsi les chiffres en appliquant des règles précises pour déterminer les tendances (croissance, décroissance, …).
Citons enfin - et parmi tant d’autres - le projet de recherche Alpage (Analyse Linguistique Profonde à grande échelle) de l’Inria et de l’université de Paris Diderot dont les équipes travaillent sur un ensemble de briques technologiques liées au domaine de l’analyse syntaxique et sémantique - entièrement en Open Source sous LGPL.
Si ces projets livrent un instantané de l’état d’avancement des travaux et des différentes applications possibles du TAL, il reste cependant encore une petite étape technologique à franchir. “Certaines briques commencent à être véritablement matures. […] Toutes les technologies liées à le recherche et l’extraction d’informations pour les entreprises sont aujourd’hui abouties, explique Christelle Ayache, chargée de mission Projets, et spécialiste TAL, au sein de Cap Digital, en prenant l’exemple d’Exalead, un moteur de recherche entré dans le giron de Dassault Systèmes. “L’extraction des entités nommées [noms propres, de villes, de pays, NDLR] fonctionne également très bien”.
“Mais sur des points très précis, il reste encore des verrous technologiques sur lesquels les entreprises travaillent”, commente-elle. A l’image du projet Alpage, par exemple (cité plus haut) dont le but est de créer un socle Open Source afin de promouvoir l’usage du TAL. ”Il va falloir travailler sur des technologies comme l’interprétation et l’analyse. C’est encore l’analyse du contexte qui pose problème”, souligne-t-elle.
Car l’élément sur lequel le TAL bute, c’est celui de la modélisation des ambiguités de la langue. Comme l’analyse conversationnelle, rappelait Gaëlle Recourcé, directrice scientifique de la société Kwaga, “L’interprétation d’un mail en contexte est aujourd’hui une tâche très difficile”, explique-t-elle. Par exemple, repérer une demande de rendez-vous dans un mail nécessite de détecter les événements et les circonstances associées. Or il existe une multitude de façon de l’exprimer. Pire, les informations peuvent être insérées dans le flux d’une conversation qui contient, dans des messages passés, des données clé. C’est dire la difficulté de la tâche. “Ces derniers verrous technologiques pourraient sauter d’ici 5 à 10 ans”, rappelle Christelle Ayache. Surtout si le secteur du TAL hexagonal bénéficie de l’arrivée de Google et de la toute puissance de son centre de R&D sur le territoire.
Restera à gérer l’humain, qui doit venir compléter les mécanismes d’automatisation du TAL et livrer ainsi la brique d’analyse manquante. Un élément de gestion établi depuis longtemps chez les spécialistes du secteur, mais qui doit aujourd’hui se propager.
“On [ les utilisateurs, NDLR] commence véritablement à prendre conscience que tout ne sera pas automatique, et que la validation humaine sera toujours nécessaire. […] C’est même ce qu’on doit aujourd’hui faire comprendre au grand public”, ajoute Christelle Ayache.