Definition

Extraction d'information (EI)

L'extraction d'information (EI) est la recherche automatisée d'informations sur un sujet précis dans le corps d'un texte ou un corpus documentaire.

Les outils d'EI permettent de récupérer des informations dans des documents textuels, des bases de données, des sites Web ou des sources diverses. Les informations sont extraites de textes non structurés, semi structurés ou structurés, et lisibles par ordinateur. Toutefois, cette technique est surtout employée dans le traitement automatique du langage naturel (TALN ou NLP pour Natural Language Processing) où elle sert à extraire du texte structuré d'un texte qui ne l'est pas.

L'extraction d'information dépend de la reconnaissance d'entités nommées (REN ou NER), un outil subalterne servant à trouver des informations ciblées à extraire. La REN commence par repérer les entités selon leur catégorie, à savoir lieu (LOC), personne (PER) ou organisation (ORG). Une fois la catégorie connue, un outil d'extraction récupère les informations afférentes à l'entité nommée. Celles-ci lui servent à élaborer un document lisible par ordinateur, dont d'autres traitements algorithmiques peuvent extraire du sens. L'EI en trouve le sens grâce à d'autres tâches subalternes, telles que la résolution des coréférences, l'extraction des relations, l'analyse du langage et du vocabulaire, et parfois l'extraction audio.

L'EI remonte aux premiers balbutiements du traitement automatique du langage naturel dans les années 1970. JASPER est un exemple précoce de système d'EI conçu pour Reuters par l'université Carnegie Melon University. Parmi les initiatives actuelles dans le domaine du traitement des documents multimédia et de l'EI, citons l'annotation automatique, mais aussi la reconnaissance et l'extraction de contenu à partir d'images et de vidéos.

La complexité même du langage explique que l'EI de haute qualité soit un véritable enjeu pour les systèmes d'intelligence artificielle (IA).

Cette définition a été mise à jour en août 2018

Pour approfondir sur GED, signature électronique et partage de fichiers