Definition

Traitement du langage naturel (TLN ou NLP)

Le traitement du langage naturel (TLN, ou NLP en anglais) est la capacité pour un programme informatique de comprendre le langage humain tel qu'il est parlé. Il fait partie des technologies d'intelligence artificielle.

Le développement d'applications TLN est difficile parce que traditionnellement les ordinateurs sont conçus pour que les humains leur « parlent » dans un langage de programmation précis, sans ambiguïté et extrêmement structuré, ou à l'aide d'un nombre limité de commandes vocales clairement énoncées. Or le discours humain n'est pas toujours précis, il est souvent ambigu et sa structure linguistique peut dépendre d'un grand nombre de variables complexes, notamment l'argot, les dialectes régionaux et le contexte social.

Utilisations du traitement du langage naturel

La plupart des études menées sur le traitement du langage naturel tournent autour de la fonctionnalité de recherche, et plus particulièrement celle utilisée en entreprise. Il s'agit de permettre aux utilisateurs d'interroger des ensembles de données sous la forme d'une question qu'ils pourraient poser à une autre personne. La machine interprète les éléments importants de la phrase en langage humain, par exemple ceux qui peuvent correspondre à des fonctions spécifiques dans un ensemble de données, et renvoie une réponse.

Le traitement du langage naturel peut être utilisé pour interpréter du texte libre et le rendre analysable. Une énorme quantité d'informations est stockée dans des fichiers de texte libre, par exemple les dossiers médicaux des patients. Avant les modèles TLN reposant sur l'apprentissage profond, l'analyse assistée par ordinateur ne pouvait pas accéder à ces informations qu'il n'était pas possible d'analyser de manière systématique, quelle que soit la méthode. Mais le TLN permet aux analystes de passer au crible des quantités massives de texte libre afin de chercher des informations pertinentes dans les fichiers.


Cette vidéo explique comment utiliser
l'apprentissage profond pour élaborer
des modèles TLN.

L'analyse des sentiments fait également partie des principaux cas d'utilisation du TLN. Elle permet aux data-scientists d'évaluer les commentaires publiés sur les réseaux sociaux pour voir comment se comporte la marque de leur entreprise, par exemple, ou d'examiner les notes des équipes du service clients pour identifier les domaines dans lesquels les clients souhaitent que l'entreprise apporte des améliorations.

La technologie de traduction automatique de Google et d'autres moteurs de recherche repose sur des modèles d'apprentissage profond de TLN. Elle permet aux algorithmes de lire du texte sur une page Web, d'interpréter sa signification et de le traduire dans une autre langue.

Fonctionnement du traitement du langage naturel

Les approches actuelles du TLN sont basées sur l'apprentissage profond, un type d'intelligence artificielle qui examine des structures de données et les utilise pour améliorer la compréhension d'un programme. Les modèles d'apprentissage profond exigent d'énormes volumes de données étiquetées pour apprendre et identifier les corrélations pertinentes, et l'assemblage de ce type de Big Data est actuellement l'un des principaux obstacles que rencontre le TLN.

Les approches précédentes du TLN étaient plus basées sur des règles, et consistaient à enseigner à des algorithmes d'apprentissage automatique (statistique) plus simples les mots et expressions à rechercher dans le texte, des réponses spécifiques étant générées lorsque ces expressions étaient trouvées. Mais l'apprentissage profond constitue une approche plus flexible, plus intuitive, dans laquelle les algorithmes apprennent à identifier l'intention du locuteur grâce à de nombreux exemples, un peu comme un enfant qui apprend à parler.

Importance du TLN

Les avantages du traitement du langage naturel peuvent être démontrés avec les deux phrases suivantes : « L'assurance cloud computing doit faire partie de chaque contrat de niveau de service » et « Avec un bon SLA, vous dormirez mieux... même dans le cloud ». Si vous utilisez le traitement du langage naturel pour lancer une recherche, le programme reconnaîtra cloud computing comme étant une entité, cloud comme une forme abrégée de cloud computing et SLA comme un acronyme désignant un contrat de niveau de service (« Service Level Agreement » en anglais).

Les éléments indistincts de ce type, qui apparaissent fréquemment dans le langage humain, ont longtemps posé des problèmes d'interprétation aux algorithmes d'apprentissage automatique. Aujourd'hui, grâce aux progrès de l'apprentissage profond et de l'intelligence artificielle, les algorithmes peuvent les interpréter efficacement.

Cette situation a des répercussions sur les types de données analysables. De plus en plus d'informations sont créées en ligne chaque jour, dont une bonne partie en langage humain naturel. Jusqu'à récemment, les entreprises ne parvenaient pas à analyser ces données. Mais les avancées du traitement du langage naturel permettent désormais d'analyser et d'assimiler les données provenant d'une plus vaste palette de sources.

Cette définition a été mise à jour en octobre 2018

Pour approfondir sur Outils décisionnels et analytiques