Kirasolly - stock.adobe.com

IA, machine learning, deep learning, IA générative : quelles différences ?

La démocratisation de ce que le marché a nommé l’IA générative provoque chez certains une forme de confusion. En des termes simples, l’IA – intelligence artificielle – devient, dans les discours, IA générative. Ce conseil rappelle les distinctions entre les grandes familles de l’IA.

Le problème n’est pas nouveau. Il faut dire que les deux lettres accolées ont nourri les imaginaires de longue date et laissent une impression floue.

L’IA n’est pas magique, c’est une famille de méthodes mathématiques

Pourtant, l’IA n’est pas magie ou alchimie. Comme nous l’avons déjà écrit dans LeMagIT, l’intelligence artificielle est avant tout un domaine rassemblant « une famille de technologies et de méthodes mathématiques (des algorithmes) qui vise à permettre à des machines de simuler ou de s’inspirer des processus cognitifs des êtres humains pour réaliser des tâches ».

Ces tâches sont l’apprentissage, la représentation du savoir, la résolution de problèmes, la compréhension, la perception (vision, ouïe), la planification et la prise de décision, la communication et la production de contenus.

Un système d’IA qui serait capable d’accomplir toutes ces tâches mieux qu’un humain pourrait être qualifié d’intelligence artificielle générale. Nous n’y sommes pas encore : la plupart des modèles d’intelligence artificielle sont destinés à effectuer quelques-unes de ces tâches.

L’IA générative est considérée comme l’une des dernières nées de cette grande famille qu’est l’intelligence artificielle. Pour être plus précis, il faudrait dire qu’il s’agit d’un sous-domaine d’un sous-domaine d’un sous-domaine de l’IA. Remontons le fil.

Le deep learning, une sous-discipline du machine learning

Par convention, dans l’IA, l’on distingue deux grandes branches que sont le machine learning et le deep learning.

Le machine learning – ou apprentissage automatique – rassemble plusieurs méthodes d’apprentissage statistique permettant à des systèmes d’effectuer des prédictions à partir de données passées. Il y a deux méthodes principales qui sont l’apprentissage supervisé et l’apprentissage non supervisé. Les cas d’usage sont légion : analytique prédictive, maintenance prédictive, prévision, etc.

Apprentissage supervisé et apprentissage non supervisé

L’apprentissage supervisé consiste à indiquer à un algorithme à travers l’étiquetage des données d’entraînement ce que l’on attend de lui au moment de recevoir des informations inconnues. Cette technique est principalement utilisée pour effectuer deux tâches. Il y a d’abord les opérations de régression, c’est-à-dire le fait de prédire un chiffre à partir d’un autre chiffre connu. Ensuite, elle peut être utilisée pour effectuer des classifications, par exemple quelle est la probabilité que l’information transmise appartienne à la catégorie A ou B d’un tableau.

Inversement, un algorithme qui aurait été entraîné avec la méthode de l’apprentissage non supervisé n’est pas « nourri » de données étiquetées : c’est à lui de trouver des motifs, des structures ou des relations. S’ils aident également à classer ou prédire des données, ces modèles servent plus généralement à regrouper des données en catégorie (clustering), à réduire des dimensions (condenser l’information pour la rendre compréhensible ou visible), ou à détecter des anomalies.

Quant au deep learning, il est en réalité une sous-discipline du machine learning. Celle-ci vise à développer des réseaux de neurones dits profonds. Ils sont profonds parce qu’ils font interagir plusieurs couches de « neurones » interconnectées – constituées de poids et de fonctions mathématiques –, qui apprennent des représentations de données hiérarchiques. Pendant un peu moins de dix ans, les réseaux de neurones étaient principalement utilisés pour effectuer deux grandes tâches que sont la reconnaissance d’images (computer vision) et la compréhension et le traitement du langage naturel (NLU/NLP), audio ou textuel. Dans le processus d’entraînement des réseaux de neurones, les techniques de machine learning décrites plus haut et d’autres sont exploitées, soit pour réduire les coûts de calcul, soit parce qu’elles sont nécessaires pour constituer ces enchevêtrements de poids et de fonctions mathématiques et traiter de grandes quantités de données.

Qu’est-ce que l’IA générative ? Un produit du deep learning

Depuis quelques années, l’attention des chercheurs (et du marché) s’est portée sur ce que l’on nomme désormais l’IA générative.

L’expression désigne des modèles, ou des systèmes qui rassemblent plusieurs modèles, capables de générer des textes, des images ou des sons, voire les trois à la fois. L’IA générative est donc issue du deep learning et de ses sous-domaines que sont la computer vision, le NLP et le NLU.

Penchons-nous d’abord sur la genèse des modèles d’IA générative. L’expression est née avec l’émergence des réseaux de neurones antagonistes génératifs. Cette catégorie correspond à des réseaux de neurones nés au début des années 2010. Ils étaient originellement entraînés à l’aide d’un apprentissage non supervisé.

Les GANs sont davantage décrits comme des frameworks s’appuyant sur plusieurs réseaux de neurones, mis en compétition pour produire de nouvelles données plus désirables à partir de données existantes. Un réseau (le générateur) crée de nouvelles sorties, tandis que le second (le discriminateur) tente de déterminer si les nouvelles données sont réelles ou générées par l’IA. Au fil du temps, la capacité du générateur à créer des données originales s’améliore jusqu’à ce que le discriminateur ne puisse plus distinguer les nouvelles données des données originales.

Les premières expérimentations étaient consacrées à la création d’images, des œuvres d’art et des visages totalement factices.

De l’autre côté, l’émergence des architectures transformers en 2017 a permis la démocratisation des outils de traduction, de classification et de génération de texte. Ces réseaux de neurones dotés de mécanismes d’auto-attention (self-attention en VO) permettent de traiter en parallèle des données séquentielles, dont des représentations de mots, de phrases ou de textes. Le modèle en question peut donner plus d’importance à des parties d’une séquence de texte en entrée et en conserver le contexte.

Les transformers sont désormais utilisés pour propulser des modèles capables de comprendre et de générer du code, du texte, des images et des fichiers audio.

Trois catégories d’IA générative

Avec ces bases en tête, l’on peut désormais identifier trois grandes catégories de modèles d’IA générative :

  • Les grands modèles de langage
  • Les modèles de génération d’images
  • Les modèles multimodaux

Les grands modèles de langage (en anglais Large Language Model ou LLM), comme GPT-4, le « moteur » de l’application ChatGPT, sont des transformers qui apprennent des relations statistiques entre d’énormes quantités de documents, de textes représentés par des unités lexicales appelées tokens à partir de techniques d’apprentissage non supervisé et semi-supervisé. Contrairement aux premiers transformers et modèles de NLU/NLP, ils ne sont pas, dans un premier temps, entraînés pour accomplir une tâche spécifique. D’abord, un LLM doit interpréter une information en entrée, appelée prompt, et prédire un résultat en sortie.

Dans un deuxième temps, un LLM peut être spécialisé dans la réponse à des questions, des instructions, des explications, la production de formats spécifiques, etc. Dans le cas d’un agent conversationnel, un chatbot, le modèle prédira la réponse la plus probable à une question. Mais il pourra aussi être utilisé pour prédire la prochaine interaction avec l’utilisateur ou l’action à enclencher pour répondre à sa demande.

Les modèles de génération d’images, eux, sont destinés au débruitage, au redimensionnement, à l’extension et à la création d’images.

Les GAN font aussi partie de cette catégorie. Mais il faut évoquer le développement de plusieurs techniques complémentaires pour comprendre ce qu’il se cache derrière les outils de génération d’images les plus populaires comme Dall-E, Midjourney et Stable Diffusion.

D’abord, il faut distinguer les deux types de modèles que sont les modèles de diffusion et les autoencodeurs variationnels (VAE ou Variational auto-encoder).

Les modèles de diffusion sont entraînés à l’aide d’un processus consistant à « détruire » étape par étape des images, en y ajoutant graduellement du bruit gaussien de manière aléatoire, puis à inverser le processus en essayant de reproduire l’image originelle.

Pour comprendre les autoencodeurs variationnels, il faut se pencher sur les autoencodeurs. Ceux-ci s’appuient sur une structure neuronale composée d’un encodeur et d’un décodeur. Le rôle de l’encodeur est de compresser les données en entrée (des images) sous forme de vecteurs mathématiques, tandis que le décodeur tente de reconstruire les données exactes à partir des informations disponibles dans cet espace. L’autoencodeur variationnel est constitué d’un encodeur et d’un décodeur, mais ce dernier « apprend la distribution des données liée à une image au lieu de simplement la compresser ». Cela permet non pas de décompresser une image, mais d’en créer de nouvelles de manière probabiliste. Les modèles de diffusion dits latents possèdent la même caractéristique.

Nous avons désormais tous les ingrédients pour expliquer la naissance des modèles text-to-images. Leur fonctionnement est simple : il suffit de décrire en langage naturel un personnage, un paysage ou une situation que le modèle interprétera pour produire une image correspondante. Techniquement, Dall-E, Midjourney et Stable Diffusion sont des systèmes text-to-images qui combinent l’architecture transformer pour interpréter un texte en entrée, les modèles de diffusion latents, et parfois les VAE, afin de produire des images en sortie.

Quant à l’IA multimodale (Gemini, GPT-4), elle consiste aujourd’hui à utiliser une seule architecture de type de transformer pour interpréter du texte, des images, des vidéos et des sons et répondre aux utilisateurs d’une application, soit avec du texte, soit avec des images, soit les deux. La multimodalité commence à s’étendre à la vidéo et aux sons.

Enfin, terminons par une précision importante : les modèles d’IA générative n’ont pas été optimisés pour générer des valeurs numériques, mais des mots. Ils ne remplacent pas, pour l’heure, les algorithmes de machine learning et de statistiques utilisés pour effectuer des prévisions, des prédictions et des analyses dans un processus de décision d’entreprise. 

Pour approfondir sur Intelligence Artificielle et Data Science