sdecoret - stock.adobe.com

GP4-o audio, o3 : le « raisonnement » et la voix, les deux lubies d’OpenAI

Certaines entreprises auront retenu l’existence de ChatGPT Pro, un abonnement à 200 dollars par mois par utilisateur pour les tester sans regarder les crédits consommés. Toutefois, OpenAI les encourage plutôt à outiller leurs développeurs avec des modèles et des frameworks consacrés aux interactions vocales et à l’orchestration de tâches complexes.

Lors de son marathon d’annonces du mois de décembre, OpenAI a particulièrement mis en lumière ses fonctionnalités liées à ChatGPT.

Dans les faits, l’ensemble d’entre elles dépend de l’évolution de ses grands modèles de langage et de ses outils. Des « armes » que la startup met à disposition des développeurs.

À commencer par la disponibilité générale de la collection de modèles de « raisonnement » 01, sortie de sa prévision. En sus des appels de fonctions, ce LLM serait capable de générer de contenus structurés (dont des schémas JSON) et de lire des images en entrée. Surtout, OpenAI a pris des mesures pour réduire les coûts d’usage en diminuant la quantité de tokens pour « raisonner ». En ce sens, il livre un paramètre API nommé « reasoning effort ». Les « efforts de raisonnement » servent à contrôler à la fois la durée du traitement et la quantité de tokens nécessaire à l’exécution d’une tâche. La startup a également introduit un système d’instruction visant à guider davantage les résultats des développeurs.

Les annonces d’OpenAI de décembre en un coup d’œil

  • Pour les développeurs :
    • O1 sera prochainement accessible par API et peut désormais traiter des images en entrée.
    • Les modèles gpt-4o audio et mini audio, en préversion.
    • Amélioration de l’API Realtime pour contrôler les échanges vocaux avec les LLM dédiés.
    • Des SDK Go et Java en bêta.
    • Fonctions de fine tuning léger à partir des préférences des utilisateurs (DPO).
  • Pour les chercheurs et les entreprises :
    • ChatGPT Pro : un abonnement à 200 dollars par mois pour tester l’ensemble des modèles et fonctionnalités d’application, sans (trop) se soucier des crédits consommés.
    • Des droits d’accès à ChatGPT Pro pour quelques scientifiques triés sur le volet.
    • Un programme pour accéder à la fonction de Reinforcment Fine-tuning en alpha.
    • Annonce d’o3 et d’o3 mini, dont le lancement est prévu pour l’année prochaine.
    • Accès au programme de tests de sécurité d’o3 et o3 mini.

 

Un arsenal d’outils pour exploiter les modèles o1 et GPT-4o audio

Les fonctionnalités comme Advanced Voice Mode sont en partie permises par l’amélioration de l’API Realtime Transcript, qui bénéficie d’une intégration avec WebRTC en JavaScript. Elle inclut des fonctions d’encodage audio et de gestion du streaming, de suppression de bruit et de contrôle de débit.

Toujours en bêta, l’API Realtime s’accompagne de la disponibilité de gpt-4o mini realtime preview, une variante du modèle capable de traiter du texte et de l’audio, ainsi que de gpt-4o audio et mini audio preview, deux modèles exclusivement speech to speech.

L’API permettant d’interagir avec GPt4o à la voix bénéficie de nouveaux paramètres afin de paralléliser les traitements de filtrage de contenu et d’ajouter du contexte pour générer la réponse vocale. Il est par ailleurs possible de reporter la réponse à une question côté serveur en rassemblant davantage d’informations sur l’interlocuteur humain. La réponse peut ensuite être déclenchée manuellement ou à l’aide d’un. Les sessions peuvent maintenant durer 30 minutes au lieu de 15 minutes auparavant.

Ici, OpenAI dit avoir drastiquement réduit sa tarification de ses modèles voix à voix.

« Le prix de GPT-4o mini pour l’audio est de 10 $ par million de tokens d’entrée et de 20 $ par million de tokens de sortie », avance le fournisseur dans sa documentation. « Les tokens de texte sont facturés à 0,60 $ par million de tokens d’entrée et à 2,40 $ par million de tokens de sortie. Les fichiers audio et textes mis en cache coûtent tous deux 0,30 $ par million de tokens ».

En outre, les développeurs ont le droit en bêta aux SDK pour Java et Go, en sus des kits de développement pour Python, .Net, TypeScript/JavaScript déjà accessibles.

OpenAI pousse les entreprises à fine-tuner ses modèles

Sans oublier qu’OpenAI croit pouvoir mettre les développeurs au fine tuning léger avec des techniques de Preference fine-tuning, et plus particulièrement l’optimisation directe des préférences (Direct Preference Optimization ou DPO). Cette technique habituellement exploitée dans les dernières phases d’entraînement d’un LLM consiste à fournir un jeu de données comprenant des questions ou des prompts et des réponses comparées par des annotateurs. Certaines sont idéales et d’autres s’avèrent « sous optimales » ou moins bonnes (« A est mieux que B »). Ensuite, les labels de comparaison de réponses permettent d’optimiser directement les paramètres du modèle afin de réduire la quantité de sorties non désirées.

Cette méthode est à distinguer du fine-tuning supervisé qui utiliser des étiquettes fixes, ce qui est plus approprié pour obtenir des réponses factuelles et plus structurées. « En apprenant à partir de comparaisons par paires plutôt que de cibles fixes, le Preference Fine-Tuning est particulièrement efficace pour les tâches subjectives où le ton, le style et la créativité sont importants », indique OpenAI. Une dizaine d’échantillons suffirait pour commencer à obtenir des résultats.

En parlant d’apprentissage par renforcement, OpenAI lance un programme de recherche consacré au « reinforcment fine-tuning » (RFT), c’est-à-dire une technique spécifique pour affiner les connaissances des LLM à travers une boucle d’entraînement impliquant un modèle de récompense. LE modèle de récompense d’OpenAI, la clé de son succès technique.

Ici, la startup entend mettre à disposition des grands comptes et des chercheurs un outil (en alpha) pour spécialiser les LLM o1 à accomplir des tâches « complexes » dans leurs domaines respectifs : finance, légal, recherche médicale, etc., à partir de quelques milliers d’exemples.

Les jeux de données sont composés d’un cas, d’une série d’instructions et d’une « bonne » réponse, cachés au LLM à entraîner, mais utilisés par le modèle de récompense pour évaluer la prédiction du LLM.

 Il existe plusieurs modèles de récompense, ici nommés « évaluateur » suivant la tâche à effectuer. Selon les chercheurs d’OpenAI, l’entraînement RFT prendrait quelques heures à plusieurs jours en fonction de la quantité de données en entrée. La technique permettrait d’entraîner un modèle o1 mini pour le rendre plus efficient qu’un LLM o1 générique concernant l’accomplissement d’une tâche « experte » comme déterminer le ou les gènes responsables d’une maladie. Le flux RFT entrera en disponibilité générale l’année prochaine.

OpenAI dévoile o3 (pour ne pas froisser Telefónica)

Mais le lancement le plus attendu de l’année prochaine n’est autre que celui d’o3. « Vous auriez pu penser que ce modèle s’appellerait o2, mais pour respect pour nos amis de Telefónica [propriétaire de l’opérateur et de la marque O², N.D.L.R] et dans la grande tradition d’OpenAI d’être véritablement nul à trouver des noms, il s’appellera o3 », déclare Sam Altman, cofondateur et CEO d’OpenAI, dans la dernière vidéo de la série d’annonces.

Ces modèles de « raisonnement » entraînés avec des techniques de « chain of thought » seraient déjà meilleurs qu’o1 une fois confronté aux tâches de programmation, de mathématiques et de recherche fondamentale.

« Nous saturons presque les benchmarks à notre disposition », avance Mark Chen, vice-président sénior de la recherche chez OpenAI. D’où la nécessité de trouver et de concevoir des parangonnages toujours plus difficiles. OpenAI s’associe à la fondation ARC pour développer un benchmark pour o3 qui atteindrait déjà des sommets de performance inédits.

Si le commun des mortels et les entreprises doivent attendre l’année prochaine pour essayer la collection o3 et o3 mini, les chercheurs spécialistes des techniques adversariales sont invités à participer au programme de tests, ouvert dans la nuit de vendredi à samedi. De fait, OpenAI cherche à tester les performances de sa (nouvelle) méthode d’alignement des réponses aux préférences humaines, nommée l’alignement délibératif.

Ici, il s’agit de permettre au LLM de « délibérer » – à savoir de dérouler un raisonnement pour savoir si la requête d’un utilisateur est acceptable ou non, sans en afficher les tenants et aboutissants à l’usager. Lui doit uniquement recevoir la réponse finale. Le procédé diverge sensiblement des approches de l’apprentissage par renforcement avec retours humains, et l’IA constitutionnelle développée par Anthropic.

« Nous entraînons un modèle en deux étapes pour assurer son utilité et sa sécurité. Tout d’abord, le modèle est raffiné sans données liées à la sécurité. Ensuite, nous générons un ensemble de données où les chaînes de raisonnement (Chain of Toughts ou CoTs) intègrent les spécifications de sécurité, grâce à des invites système enrichies », indique OpenAI dans un billet de blog.

Par un affinement supervisé (SFT), le modèle apprend à raisonner en fonction des spécifications de sécurité. L’apprentissage par renforcement (RL) doit améliorer l’utilisation de ces raisonnements, avec un modèle de récompense aligné sur les politiques de sécurité.

Les spécifications et les prompts en entrée permettent de générer des données synthétiques. Ce qui éliminerait le besoin d’annotations humaines et faciliterait la boucle de fine-tuning.

Pour approfondir sur Data Sciences, Machine Learning, Deep Learning, LLM