Génération automatique de textes en langage naturel (GAT ou NLG)
La génération automatique de textes (GAT ou NLG, pour Natural Language Generation) est un domaine de l'intelligence artificielle (IA) qui vise à produire du contenu ou un discours comparable à celui des humains à partir d’un ensemble de données.
Selon la technologie utilisée, les logiciels GAT ont accès à une base de connaissances pour, par exemple, créer du contenu ou donner une forme plus compréhensible à des données ou statistiques.
La génération automatique de textes fait partie du traitement du langage naturel (TLN ou NLP pour Natural Language Processing), tout comme la compréhension du langage naturel (CLN ou NLU pour Natural Language Understanding). Ces techniques combinées trouvent des applications utiles dans les systèmes à personnalité artificielle, tels les chatbots et les assistants virtuels, qui interagissent avec le public.
La recherche sur la NLG se concentre souvent sur la création de programmes informatiques qui fournissent des points de données en rapport avec le contexte. Un logiciel NLG sophistiqué a la capacité d'extraire de grandes quantités de données numériques, d'identifier des modèles et de partager cette information d'une manière facile à comprendre pour les humains. La rapidité du logiciel NLG est particulièrement utile pour la production de nouvelles et d'autres articles sensibles au facteur temps sur Internet. Dans le meilleur des cas, les résultats de NLG peuvent être publiés textuellement sous forme de contenu Web.
Pensons par exemple aux résultats sportifs, qu'on peut étoffer d'un contenu semblable à ce qu'écrirait un rédacteur sportif (mais bien plus rapidement), ou aux comptes de résultats d'une entreprise à présenter sous forme de rapport financier rédigé.
Les logiciels GAT (NLG) servent également à automatiser la rédaction de rapports. Contrairement à la plupart des humains, les logiciels ont la capacité de transformer de gros volumes de données numériques en quelque chose de facilement accessible aux non spécialistes.
L'Associated Press et d'autres médias utilisent les programmes de robojournalisme de NLG depuis de nombreuses années pour mettre les ensembles de données en contexte. Par exemple, lorsqu'un tremblement de terre a frappé Los Angeles en 2014, un algorithme de génération de contenu créé par le programmeur/journaliste Ken Schwencke a publié le récit dans le L.A. Times, dans les huit minutes qui ont suivi, avec une carte montrant l'épicentre.
Bien qu'il soit relativement facile pour les humains de reconnaître la NLG lors d'interactions avec un appareil mécanique ou numérique, il leur est par contre souvent difficile de savoir quand un texte écrit a été généré par un ordinateur.