Timon - stock.adobe.com
GPT-4o mini : OpenAI sort la version « low-cost » de son IA multimodale
OpenAI remplace GPT-3.5 Turbo par GPT-4o mini, une version amoindrie de son IA multimodale, mais plus rapide, 60 % moins chère et pas si éloignée de son aîné, GPT-4o, en matière de performances.
OpenAI a annoncé la disponibilité de GPT-4o mini, une variante allégée de son grand modèle de langage multimodal que la plupart des utilisateurs de ChatGPT peuvent déjà tester.
La promesse est d’offrir des performances supérieures à GPT 3.5 Turbo à un prix inférieur avec une latence similaire, tout en proposant des capacités de vision.
Quand GPT-3.5 turbo-0125 coûte 50 centimes de dollar pour 1 million de tokens en entrée et 1,50 dollar avec la même quantité de tokens en sortie, GPT-4o mini est facturé 15 centimes de dollar pour 1 million de tokens en entrée et 60 centimes pour un nombre de « jetons » identique en sortie (respectivement 0,08 dollar en entrée et 0,30 dollar en sortie en batch).
Des modèles pas chers, rapides et efficaces : la priorité d’OpenAI pour damer le pion de ses concurrents
L’entreprise avance que cela représente un rabais de 60 % et de 99 % par rapport à text-davinci-003, un LLM commercialisé en 2022.
GPT-4o mini dispose d’une fenêtre de contexte de 128 000 tokens et peut générer du contenu jusqu’à 16 000 tokens (ou équivalent pour les images). Le LLM peut ingérer du texte et des images, et prendra en charge, les vidéos et l’audio à l’avenir.
Du fait de son appartenance à la collection GPT-4, OpenAI continue de dater la limite de connaissances de GPT-4o mini à octobre 2023.
L’entreprise proche de Microsoft a également amélioré son tokenizer afin de réduire le coût du traitement des langues autres que l’anglais.
Toujours aussi infidèle à son nom, OpenAI ne renseigne ni la taille du modèle ni la nature des efforts effectués pour « compresser » GPT-4o.
Il indique seulement qu’il a appliqué « de nouvelles techniques » en suivant la même méthodologie d’entraînement et de mitigations des risques qu’avec GPT-4o (o pour « Omni »).
« La version de GPT-4o mini disponible via l’API est le premier modèle à appliquer notre méthode de hiérarchie des instructions, qui permet d’améliorer la capacité du modèle à résister aux jailbreaks, aux injections et aux extractions d’invites système », avance OpenAI.
GPT-4o mini, un compagnon pour les développeurs
Selon OpenAI, GPT-4o mini est devant Gemini (1,5) Flash, Claude (3) Haiku et GPT-3.5-Turbo quand il est confronté aux évaluations MMLU, GPGA, MGSM, MATH, HumanEval, MMMU et DROP. Souvent, il dépasse de peu Gemini Flash qui, lui, reste légèrement supérieur sur le test MathVista (résolution de problèmes mathématiques à partir d’une formule prise en photo). Clairement, l’entreprise souhaitait offrir une alternative sérieuse aux LLM de Google et Anthropic.
Pour rappel, Gemini 1,5 Flash coûte 0,35 dollar pour 1 million de tokens en entrée et 0,70 dollar pour 1 million de tokens en sortie. Anthropic facture l’usage de Claude 3 Haiku 0,25 dollar le million de tokens en entrée et 1,25 dollar en sortie.
La variante « naine » de GPT-4o serait idéale pour remplir des tâches d’extraction de données structurées dans un reçu ou une facture, pour générer des mails « de haute qualité ».
Son modèle tarifaire lui permet – sur le papier – de se frotter à AWS Rekognition, un service OCR d’AWS. L’utilisation de GPT-4o mini pour une image de 512 par 512 pixels est facturée 0,001 275 dollar (0,15 dollar pour 1 million de tokens en batch, la taille évoquée représente 8 500 tokens) contre 0,001 dollar par image pour le premier million d’images avec AWS Rekognition. À voir si les services d’OpenAI tiennent autant la cadence que ceux d’AWS et égalent leur performance (Rekognition s’avère particulièrement adapté pour accomplir cette tâche).
Il peut également « enchaîner ou paralléliser plusieurs appels de modèle par API. Il gère des contextes volumineux, tels qu’une base de code complète ou un historique de conversations. Il interagit avec les clients via des réponses textuelles rapides et en temps réel [pour propulser] des chatbots de service à la clientèle », liste le fournisseur.
« GPT-4o mini ne semble pas particulièrement efficace pour vérifier les contrats légaux par rapport aux politiques contractuelles (70 à 90 règles par contrat) », témoigne sur X (Twitter) Scott Stevenson, cofondateur et CEO de Spellbooklegal. Il dirige une startup canadienne qui développe un assistant reposant sur GPT-4 en direction des équipes légales des entreprises. Le benchmark de Scott Stevenson (dont la solution serait utilisée par le fabricant de guitares Fender) le place – dans l’ordre – en dessous de Claude 3 Haiku, Opus, Sonnet, GPT-4o, Sonnet 3.5 et GPT-4 Turbo (le meilleur à cet exercice). Cette tâche est sans doute l’une des plus difficiles à accomplir pour un LLM.
GPT-4o mini se distingue surtout dans les parangonnages MATH (70,2 % contre 76,6 % pour GPT-4o) et HumanEval (87,2 % contre 90,2 % pour GPT-4o). En clair, le LLM semble particulièrement adapté aux tâches de programmation. Et la « startup » le sait.
« GPT-4o mini ouvre la voie aux développeurs pour créer et mettre à l’échelle de puissantes applications d’IA de manière plus efficace et plus abordable », vante-t-elle.
De plus, le petit frère de GPT-4o est manifestement plus véloce à travers ChatGPT. Depuis l’API, des internautes évoquent des latences de l’ordre de 150 tokens par seconde, soit la vitesse maximum de DBRX, le modèle de Databricks.
Si les écarts de performances sont suffisamment faibles, le petit nouveau risque rapidement d’accaparer la place de GPT-4o, facturé 5 dollars pour 1 million de tokens en entrée et 15 dollars avec le même volume de jetons en sortie.
GPT-4o mini remplace déjà GPT 3.5 dans ChatGPT Free (où il n’a pas accès aux outils, par exemple pour créer des feuilles Excel), Plus et Team et se substituera progressivement à ce LLM dans ChatGPT Enterprise à partir de la semaine prochaine.
GPT-5 attendra
Quant au fameux GPT-5, OpenAI n’a pas annoncé de date de sortie ni réellement confirmé les estimations de disponibilité, entre la fin de l’année 2024 et début 2025. Sam Altman, le CEO de l’entreprise, a laissé entendre que le modèle représenterait « un bond en avant significatif ». De son côté, Mira Murati, la CTO d’OpenAI, a indiqué en juin que la prochaine génération de LLM aurait le niveau de connaissances « d’un doctorant ». Ce niveau serait atteint, selon elle, dans un an et demi environ, soit à la fin de l’année 2025 ou au début de l’année 2026..