Definition

Intelligence artificielle générative

Cette définition fait partie de notre Guide Essentiel : Les théories et pratiques essentielles pour déployer l’IA générative

On peut définir l’IA générative (Generative AI en anglais, ou GenAI en abrégé) comme l’ensemble des outils d’intelligence artificielle (IA) qui génèrent des contenus en fonction d’une demande (un prompt). Les types de contenus ainsi générés sont très vastes. Ils peuvent aussi bien être du texte qu’une image, une vidéo ou une musique, ou encore du code ou un plan d’architecte (liste non exhaustive).

En entrée, le prompt peut lui aussi prendre différentes formes. Le plus souvent il s’agit d’un texte (une question ou une description), qui peut être complété par d’autres objets (image, vidéo, ou tout autre input pris en charge par le système). Des algorithmes génèrent ensuite une réponse ou le contenu souhaité.

Par exemple, une IA générative pourra « dessiner » un paysage dans le style d’un peintre à partir d’une photo réelle, ou encore la décrire d’une manière qui aura été précisée dans le prompt (pour accompagner sa publication sur Twitter par exemple).

Les premières versions des services d’IA génératives étaient utilisables uniquement via des APIs. Les développeurs devaient passer par des outils spécifiques et écrire des applications avec des langages comme Python. Dans un deuxième temps, des interfaces utilisateurs conversationnelles de type chatbot – dont la plus connue est ChatGPT – ont simplifié l’utilisation de l’IA générative en permettant de formuler des prompts en langage naturel. Après une première réponse de l’IA (ou un premier contenu généré), l’utilisateur peut dialoguer avec le bot pour affiner le résultat ou signaler une erreur, comme dans une discussion.

Exemple d'un tweet généré par ChatGPT
L'UI conversationnelle de ChatGPT qui écrit un tweet en fonction d'un prompt puis d'un échange.

Quels sont les différents types d’IA générative ?

On peut différencier deux grandes familles d’intelligence artificielle générative.

La première est la famille des IA génératives généralistes. Ces modèles sont entraînés sur un corpus de données publiques extrêmement vaste. Ils ont vocation à répondre à tout type de questions ou de demandes – tout comme un moteur de recherche sur Internet.

La seconde est la famille des IA génératives privées. Ces outils sont destinés à ne compulser que les données d’une organisation. Souvent, les modèles sont également préentraînés pour répondre à un cas d’usage précis (relation client, résumer des documents juridiques, etc.).

Dans le premier cas, tous les prompts et tous les retours des utilisateurs nourrissent l’algorithme qui motorise l’IA générative (c’est par exemple le cas de ChatGPT).

Dans le second, les échanges n’entraînent que l’instance privée de l’organisation – hébergée soit par l’éditeur, soit par l’organisation elle-même.

Un éditeur peut proposer les deux versions pour mieux répondre aux besoins des groupes qui souhaitent préserver la confidentialité de leurs données sensibles.

Quels sont les principaux cas d’usages de l’IA générative ?

En théorie, l’IA générative peut être utilisée pour produire tout type de contenus. Dans la pratique, elle est principalement appliquée aujourd’hui pour :

  • Implémenter des chatbots (SAV, réponses à des questions techniques, etc.)
  • Écrire des ébauches de réponses (mails), faire des listes, résumer des textes, rédiger des notes de synthèse et des plans de documents.
  • Écrire, auditer, expliquer du code.
  • Créer des images, des univers graphiques 3D ou des vidéos
  • Concevoir des prototypes de produits et optimiser des plans et des aménagements en fonction de contraintes précises.

Avec ses capacités, l’IA générative peut avoir des bénéfices pour pratiquement tous les métiers – même si ce sont les « travailleurs du savoir » et les créatifs (marketing, designers, etc.) qui sont les plus concernés aujourd’hui.

Il faut néanmoins garder à l’esprit que l’IA générative, bien que très puissante et très prometteuse, n’en est qu’à ses débuts. Des cas d’usages pertinents devraient donc s’ajouter régulièrement au fil des expérimentations et des projets.

Infographie des principaux atouts de l'IA générative pour les entreprises
Principaux atouts de l’IA générative pour les entreprises

Que sont les Transformers et les grands modèles de langage (LLMs) ?

L’IA générative est apparue dans les années 1960 avec les premiers chatbots. Mais ce n’est qu’en 2014, avec l’arrivée des réseaux antagonistes génératifs (GAN), un type d’algorithme de machine learning (ML), que cette technologie a pu créer des textes, des images, des vidéos et des sons suffisamment convaincants.

Dans le même temps, cette nouvelle capacité a fait naître des inquiétudes concernant les « deepfakes » : des images ou des vidéos totalement fausses, mais qui ont l’air parfaitement réelles (pour faire de la propagande), ou des textes qui imitent de manière réaliste une personne (pour faire de l’ingénierie sociale dans le cadre d’une cyberattaque).

Deux autres avancées majeures ont joué un rôle essentiel dans la généralisation de l’IA générative : les Transformers et les grands modèles de langage (Large Language Models, ou LLMs).

Les Transformers sont un type de ML qui a permis d’entraîner des modèles de plus en plus grands sans avoir à étiqueter toutes les données en amont. De nouveaux modèles ont ainsi pu être entraînés sur des milliards de pages de texte pour avoir des réponses plus approfondies.

Les Transformers ont aussi permis l’émergence d’une nouvelle notion : l’attention. Elle a permis aux modèles de suivre les relations entre les mots au-delà d’une phrase, dans des pages entières, des chapitres et des livres. Cette capacité ne concerne d’ailleurs pas que les mots : les Transformers pourraient suivre ces relations pour analyser du code, des protéines, des molécules chimiques ou l’ADN.

Les progrès rapides des grands modèles de langage (LLM), c’est-à-dire des modèles comportant des milliards, voire des trillions de paramètres, ont ouvert une nouvelle ère dans laquelle les modèles d’IA générative savent écrire des textes engageants ou peindre des images réalistes.

Qui sont les principaux acteurs de l’IA générative ?

L’intelligence artificielle générative a fait irruption en 2023 dans le grand public avec deux services de l’éditeur OpenAI : ChatGPT et Dall-E.

ChatGPT est le chatbot qui a médusé le monde en novembre 2022. Ce moyen d’interagir avec l’implémentation du modèle GPT-3.5 et d’affiner les réponses via une interface de chat a gagné une popularité incroyable. À tel point que Microsoft a décidé d’investir massivement dans OpenAI pour infuser ses services dans sa gamme d’outils (Office, Azure, Bing, etc.).

Dall-E est l’autre service le plus connu d’OpenAI. Jeu de mots sur Salvador Dali, il génère des images en fonction d’une description et d’instructions de l’utilisateur. Ses principaux concurrents sont Midjourney, Stable Diffusion (Stability AI) ou Firefly (Adobe).

OpenAI propose un troisième outil moins connu du grand public, Codex, spécifiquement conçu pour générer du code informatique. L’assistant GitHub Copilot, développé par GitHub pour le compte de Microsoft, est une déclinaison commerciale de ce modèle. Il a pour principal concurrent CodeWhisperer d’Amazon Web Services, FauxPilot (sur la base de Salesforce CodeGen) ou encore Codeium.

Google a été un précurseur de la technique des Transformers. L’irruption d’OpenAI et l’investissement de Microsoft dans la société ont poussé le leader des moteurs de recherche à accélérer ses plans pour sortir un produit d’intelligence artificielle générative opérationnel : Bard. Google Bard a été construit sur une version « light » de sa famille de grands modèles de langage LaMDA (Language Model for Dialog Applications). Google a depuis dévoilé une version construite sur son LLM le plus avancé, PaLM 2.

Il existe de nombreux autres éditeurs sur le marché de l’IA générative. Ces acteurs vont des très grands de la Tech (Meta/Facebook avec LlaMa) à des entreprises spécialisées comme Cohere ou Anthropic en passant par une foule de startups (Jasper, AI-Writer ou Lex dans la génération de textes ; Amper, Dadabots ou MuseNet pour la génération de musique ; Descript, Listnr ou Podcast.ai pour la génération de voix ; Tabnine pour la génération de codes), sans oublier des éditeurs d’applications métiers comme Autodesk.

En Europe, plusieurs acteurs se sont positionnés sur ce marché comme les Français Mistral AI et LightOn, ou l’Allemand Aleph Alpha.

Limites et défauts de l’IA générative

Riche de promesses, la technologie d’intelligence artificielle générative a aussi ses limites qu’il faut savoir maîtriser et ses polémiques (comme les deep fakes, évoqués plus haut).

L’entraînement de ChatGPT et de Dall-E sur un corpus de données très vaste – sans demander le consentement des propriétaires (journaux, etc.) – a par exemple été très critiqué. Ses résultats pourraient être légalement attaqués pour plagiat et violation de copyright.

Plus largement, ChatGPT ne donne pas ses sources. Il est donc difficile de vérifier les réponses.

De nombreux résultats de l’IA générative ne sont pas non plus transparents (phénomène de boîte noire). Cela peut poser un gros problème lorsque les résultats de l’IA générative sont utilisés pour écrire du code ou pour donner des conseils médicaux.

L’IA générative textuelle est, avant tout, un outil qui génère des réponses grammaticalement correctes avec une syntaxe plausible. Le fond de la réponse, lui, peut être partiellement faux, voire totalement inventé de manière crédible (phénomène dit d’hallucination).

Autres limites : que deviennent vos données et vos prompts ? Dans certains services, ils peuvent être utilisés comme des ressources pour entraîner le modèle de l’éditeur. Ce qui peut poser problème s’il s’agit de données critiques et d’information stratégique confidentielle.

Évolutions de l’IA générative

Les premières implémentations ont mis en évidence certaines difficultés pour déployer l’IA générative de manière sûre et responsable. Mais ces problèmes inspirent le développement d’outils pour y remédier.

Des éditeurs travaillent sur la manière de détecter les textes, les images et les vidéos générés par l’IA. L’industrie IT construira également de meilleurs outils pour suivre la provenance des informations afin de créer une IA plus digne de confiance.

Une autre évolution est l’intégration native de la technologie dans des applications : collaboratif (ébauches et résumés de mails), visioconférence (résumé des réunions), Excel/bases de données (automatiser l’écriture de formules et de requêtes SQL), outils d’observabilité (bots), CX et CRM (portails en self-service, proposition d’argumentaires commerciaux, ou synthétiser des milliers de réponses de clients à des enquêtes), SIRH (pour écrire des drafts d’annonces ou d’évaluation d’employés), outils créatifs comme Photoshop (production de calques avec une description), etc.

Ce mouvement devrait continuer, voire s’amplifier.

Cette définition a été mise à jour en août 2023

Pour approfondir sur Intelligence Artificielle et Data Science