Timon - stock.adobe.com
ChatGPT, Sora, LLM, API : que vous réserve OpenAI dans ses prochains produits ?
Capacités multimodales enrichies, meilleures capacités de raisonnement, possibilité de personnalisation avancée. Et des modèles allégés. Décryptage de ces annonces et des autres promesses faites par OpenAI lors de son événement parisien.
Paris – Lors d’un événement organisé à Paris le 22 mai 2024, à la Gaîté Lyrique, deux dirigeants français d’OpenAI, Olivier Godement, Head of API Product, et Romain Huet, Head of Developer Experience, ont partagé les tendances et quelques pistes sur les nouveautés à venir pour ChatGPT ainsi que pour la suite de grands modèles de langage (LLM) de l’entreprise.
Des promesses qui se concrétisent
Du côté de ChatGPT, les capacités de GPT-4o de reconnaissance vocale et visuelle sur des vidéos vont, comme promis, être disponibles prochainement dans l’application iOS. Conséquence directe, ChatGPT pourra avoir des conversations « multimodales » en combinant texte, images, audio et même vidéo, donc.
« Ce que nous avons introduit de vraiment génial avec GPT 4o, c’est la possibilité de faire du computer vision, non seulement sur des images comme c’était déjà le cas, mais aussi sur des vidéos, et en direct », rappelle Romain Huet.
Ces fonctionnalités arriveront d’ici peu également dans l’API.
« Elles permettront une toute nouvelle vague d’applications », assure Olivier Godement qui revendique « 3 millions de développeurs dans le monde […] sur la plateforme OpenAI ».
Des LLMs plus puissants
Sur le front des LLMs, OpenAI l’assure : l’IA générative va franchir un nouveau palier et progresser de manière exponentielle.
Romain HuetHead of Developer Expérience, OpenAI
« La manière dont je le vois, c’est que les modèles d’aujourd’hui sont un peu des “élèves de primaire (first graders)”. Ils réagissent très bien, de manière appropriée la plupart du temps, mais ils commettent quelques erreurs » compare Romain Huet. « Ils vont devenir des “étudiants en master” en un clin d’œil. Ils seront capables de réaliser des choses comme de la recherche médicale ou de faire des raisonnements scientifiques », lance-t-il à une salle de startupers et d’entrepreneurs ravis.
Pour lui, dans moins d’un an, les modèles seront même « méconnaissables par rapport à ceux d’aujourd’hui ».
Chez OpenAI, conformément à la vision du Head of Developer Expérience, le prochain « modèle de pointe » devrait grandement améliorer les capacités de raisonnement, être plus pertinents et plus fiables dans ses réponses.
Celui-ci est prévu « pour un peu plus tard cette année », dixit Sam Altman dans une vidéo diffusée lors de l’événement.
Des modèles plus petits aussi
OpenAI prévoit également des modèles plus légers, plus rapides et moins coûteux – ce que certains appellent Small Language Models (SLMs) ou que nous appelons sur LeMagIT « petits grands modèles ».
Romain HuetHead of Developer Expérience, OpenAI
« C’est un des commentaires les plus fréquents que nous entendons de la part des développeurs : les LLMs actuels sont trop chers et trop lents » confie Romain Huet, qui constate que la plupart des entreprises n’ont pas toujours besoin des modèles les plus puissants et qu’elles combinent – ou utilisent – différents modèles en fonction des tâches.
Le responsable s’engage donc à geler les prix (voire à les faire baisser). Et à sortir des LLMs plus petits, « des modèles extrêmement efficaces et rapides pour des tâches plus basiques », explique-t-il.
« Je ne peux pas vous donner plus de détails ou de délais précis, mais vous pouvez vous attendre à ce que nous vous en disions plus à ce sujet dans les mois à venir », promet-il.
Personnalisation des modèles et verticalisation
Une autre piste suivie par OpenAI est celle de la personnalisation. L’ambition ici est de permettre à chaque entreprise d’avoir, à terme, son modèle adapté à son domaine, à ses processus et à ses données.
« Le modèle comprendra les nuances subtiles de votre entreprise, de votre secteur d’activité, de vos processus, de votre base de code et même de votre catalogue de produits » anticipe Romain Huet.
OpenAI propose déjà des outils pour fine tuner ses LLMs ou pour faire un RAG qui peut aller jusqu’à 10 000 fichiers. Mais l’éditeur veut aller une étape plus loin. Et cette nouvelle volonté de personnalisation ouvre même la porte à la verticalisation.
Romain Huet Head of Developer Expérience, OpenAI
OpenAI a en effet travaillé avec Harvey, une des principales start-ups juridiques aux États-Unis. Harvey a créé un « copilote » qui permet aux cabinets d’avocats d’effectuer des analyses juridiques.
« Ce que nous avons fait avec eux, c’est que nous avons entraîné un modèle GPT 4 pour faire des analyses juridiques approfondies », raconte le responsable français. « Concrètement, nous avons affecté une équipe de chercheurs en ML à plein temps pour personnaliser un modèle qui soit un expert des cas juridiques américains ».
Les résultats de ce modèle seraient très bons, avec une augmentation de plus de 80 % de la « factualité » des réponses.
OpenAI pourrait-il reproduire ce genre de partenariat et sortir d’autres LLMs verticalisés ? « Je pense qu’il faut s’attendre à voir de plus en plus ce genre de chose de notre part », souffle Romain Huet.
Un point que l’éditeur a précisé par la suite au MagIT. « Ce genre de choses » désigne « les partenariats, mais OpenAI ne s’est pas engagé sur le développement de LLMs verticalisés supplémentaires », assure-t-il.
Le futur « agentic »
L’éditeur investit dans une autre vision : celle des « agents », en particulier des agents « capables de comprendre nativement et de générer des réponses multimodales ».
Ces agents pourront également interagir avec d’autres outils IT (cartes, applications, etc.), via le « function calling ».
La première pierre de ce « futur agentic » est l’Assistant API.
Romain HuetHead of Developer Expérience, OpenAI
Mais là encore, OpenAI veut aller plus loin avec, par exemple, un « interpréteur de code » (qui a d’ores et déjà enrichi l’API). Cette fonctionnalité permet à GPT de traduire en code python – auditable – des problèmes de logiques ou de mathématiques pour les résoudre.
Pour illustrer la puissance de cette fonctionnalité, Romain Huet a fait une démo (N. B. : avec interdiction de prendre des photos ou de filmer, comme pour toute la présentation à la Gaîté Lyrique), dans laquelle des amis partagent un AirBnB.
L’utilisateur demande à ChatGPT de calculer son budget vacances, en euros, et en ajoutant le prix de son billet d’avion (initialement en dollars). Le LLM augmenté du « code interpreter » fournit la réponse juste après avoir fait le bon calcul et la conversion depuis le dollar.
Pour Romain Huet, les agents pourraient en tout cas être le plus grand changement dans la manière dont les humains interagissent avec l’IA. « Ils percevront le monde et interagiront avec lui en utilisant plusieurs modalités, tout comme nous, les humains », imagine-t-il déjà.
GPT avec votre voix
Côté Sora, le générateur de vidéo actuellement dans les mains des « red teamers » qui le testent, OpenAI a levé le voile sur une fonctionnalité de synthèse de voix.
Lors de la démo, Romain Huet a parlé une quinzaine de secondes à l’IA qui, dans un second temps, s’est mise à déclamer des textes (soumis en entrée) avec sa voix.
L’IA a ensuite traduit ces textes et les a dits, dans plusieurs langues étrangères… toujours avec la voix de Romain Huet.
Cette fonctionnalité – encore plus impressionnante quand on l’utilise dans un contexte de text-to-video – pourra certainement faire craindre à certains une progression de la qualité des deepfakes.
Sur ce point, OpenAI n’a pas évoqué à Paris ses projets de marquages de contenus générés par l’IA. Ce n’était peut-être pas le lieu ni le moment. Il n’en reste pas moins que cette question deviendra, à n’en pas douter, de plus en plus prégnante dans la feuille de route d’OpenAI à mesure que Sora se perfectionnera.
Propos recueillis le 21 mai à Paris