LLM : Claude 3 d’Anthropic impressionne… sur le papier
Anthropic a présenté hier une nouvelle collection de modèles de langage, Claude 3. Malgré les performances affichées – qui semblent être vérifiées –, les observateurs et les acteurs du marché attendent davantage de pistes concrètes pour les exploiter en entreprise.
Hier, Anthropic (concurrent direct de Mistral AI et d’OpenAI) a lancé Claude 3, sa troisième collection de grands modèles de langage (LLM). La startup présente cette famille dans l’ordre de leur performance et de leur latence, en commençant par Claude 3 Haiku, puis Sonnet et Opus.
Opus et Sonnet sont déjà disponibles depuis les API d’Anthropic et son interface Claude.ai dans 159 pays. Sonnet est accessible en préversion privée depuis Vertex AI de Google Cloud et Amazon Bedrock. Il faudra attendre pour tester Haiku. La collection Claude 3 comprend des modèles d’IA générative multimodaux. Ils sont capables de traiter des photos, des graphiques, des diagrammes ou des infographies.
« Nous sommes particulièrement enthousiastes à l’idée de proposer cette nouvelle modalité à nos entreprises clientes, dont certaines ont jusqu’à 50 % de leurs bases de connaissances encodées dans divers formats tels que des PDF, des organigrammes ou des diapositives de présentation », justifie Anthropic, dans un communiqué.
Hormis le fait que la famille Claude 3 a été entraînée sur AWS et Google Cloud, en utilisant les frameworks comme JAX, Nvidia Triton et PyTorch, la startup ne détaille pas toutes les caractéristiques techniques de ses LLM. Comme ses concurrents, la startup précise que la fenêtre de contexte de ses modèles atteint 200 000 tokens, comme Claude 2.1. Les connaissances des LLM ont été figées au mois d’août 2023. Les trois modèles sont capables d’ingérer « plus d’un million de tokens », comme Gemini 1.5 Pro, et Anthropic « pourrait » proposer cette fonctionnalité « à certains clients qui ont besoin d’une puissance de traitement accrue ».
Claude 3 se retrouve au coude à coude avec GPT-4 (quand il ne le dépasse pas)
Anthropic assure que son modèle le plus capacitaire, Opus, bat GPT-4 dans les différents benchmarks testés.
« La famille Claude 3 démontre une forte performance dans les évaluations de référence et établit une nouvelle norme sur les mesures de raisonnement, de mathématiques et de codage de raisonnement », assure la startup dans le rapport consacré à sa collection de LLMs.
« Claude 3 Opus atteint des résultats de pointe sur des évaluations telles que GPQA (tests de chimie, biologie, physique, N.D.L.R.), MMLU (tests de compréhension du langage, N.D.L.R.), MMMU (tests multidisciplinaires, N.D.L.R.) et bien d’autres. Claude 3 Haiku fait aussi bien ou mieux que Claude 2 sur la plupart des tâches de traitement de texte pur, tandis que Sonnet et Opus le surpassent de manière significative », poursuit-elle.
En moyenne, Claude 3 Opus dépasse de peu… la version du fleuron d’OpenAI présenté en mars 2023. Il est aussi devant Gemini 1 Ultra, 1,0 Pro et 1,5 Pro de Google Research, ainsi que GPT-3.5. Concernant le traitement d’images, les parangonnages affichés par la startup tendent à démontrer qu’elle est à égalité avec ses concurrents. Les contributeurs du projet EvalPlus ont déjà testé les modèles de la famille Claude 3 sur les tests HumanEval et une version « nettoyée » de MBPP, deux benchmarks consacrés à la programmation.
« Sur HumanEval+, Claude-3 Opus, se place troisième sur 75, surpassant tous les modèles ouverts et restant à la hauteur de GPT-4 d’OpenAI », déclare Jiawei Liu, doctorant à l’Université de l’Illinois (UIUC), mainteneur principal du projet EvalPlus, sur X (ex-Twitter). Jiawei Liu a participé à plusieurs projets consacrés à l’évaluation des LLM et au développement de StarCoder 2 d’HuggingFace. « Mais attendez. Sur les cas de test de base (3 tests en moyenne) de MBPP+ (399 problèmes MBPP rigoureusement vérifiés à la main), Claude-3 Opus arrive 1er, en résolvant 15 problèmes de plus que GPT-4 ! Pourtant, en utilisant les tests EvalPlus plus rigoureux (100+ tests en moyenne), il se classe à nouveau troisième, au coude à coude avec GPT-3.5 Turbo ».
Suivant les tests d’Anthropic, Sonnet et Haiku affichent des performances situées entre GPT-3.5 et GPT-4 ou entre Gemini 1.0 Pro et 1.0 Ultra. Sonnet est vingtième sur 75 si l’on s’en réfère aux classements EvalPlus, Haiku n’étant pas disponible.
Quelques cas d’usage potentiels listés par Anthropic
Si, sur le papier, Claude 3 est enfin supérieur ou à égalité à GPT-4, Anthropic propose une lecture plus adaptée aux entreprises : un récapitulatif des cas d’usage potentiels. Haiku est le modèle le plus rapide et le plus abordable de la collection. Le LLM serait idéal pour motoriser un agent conversationnel en contact direct avec des clients ou pour traduire des documents. Il est aussi bien calibré pour modérer des contenus. Anthropic avance que Haiku peut optimiser des opérations de logistique (sans préciser lesquelles), la gestion des stocks et l’extraction de connaissances à partir de données non structurées.
Sonnet, lui, serait le candidat idéal pour animer une architecture RAG (Retrieval Augmented Generation), générer du code, en contrôler la qualité ou produire des métadonnées textuelles pour une image. Il pourrait également participer à la recommandation de produits, la réalisation de prévision ou d’opérations de marketing ciblé. Enfin, Opus est calibré pour les tâches d’aide à l’analyse de longs documents dans le domaine de la recherche, l’explication de rapports BI ou analytique et l’automatisation de tâches, une fois connecté aux applications et aux bases de données de l’entreprise.
Avec Haiku, l’ingestion d’un million de tokens en entrée coûte 0,25 dollar et 1,25 dollar en sortie. C’est moins cher que les prix pratiqués par OpenAI pour GPT-3.5-turbo-0125 (0,5 dollar pour 1 million de tokens en entrée, 1,5 pour 1 million de token en sortie). Sonnet coûte 3 dollars pour 1 million de tokens en entrée et 15 dollars pour le même volume en sortie. Opus, lui, est moins abordable : il revient à 15 dollars pour un million de tokens en entrée et 75 dollars pour 1 million de tokens en sortie.
Anthropic met surtout en avant Sonnet, à l’instar de Google Cloud qui mise sur Gemini Pro. « Claude 3 Sonnet présente un équilibre idéal entre intelligence et vitesse, en particulier pour les charges de travail d’entreprise. Il offre des performances élevées à un coût inférieur à celui de ses pairs, et est conçu pour une grande endurance dans les déploiements d’IA à grande échelle », avance la startup.
Une course à l’armement qui devra prouver son utilité
David CushmanAnalyste, HFS Research
Est-ce à dire que Claude 3 est un « game changer » ? Non, selon David Cushman, analyste chez HFS Research, dont les propos ont été recueillis par SearchAIEnterprise, une publication sœur du MagIT. « [Ces modèles] ne semblent pas bouleverser la donne », juge-t-il. « Ils sont un peu meilleurs, soi-disant, que certains modèles concurrents ».
Anthropic tente tout de même de se différencier avec son approche Constitutional AI. L’entreprise a été l’une des premières à mettre en place de boucles d’apprentissage par renforcement, en s’appuyant sur le retour d’utilisateurs humains pour réduire les hallucinations et a développé une stratégie de red teaming reconnue. Il y a un an, la red team d’Anthropic a publié (sous licence MIT) un jeu de données de question-réponse constitué par des humains, pour apprendre aux LLM à détecter et à rejeter les contenus offensants, toxiques ou dangereux.
La startup dit avoir renforcé ces fonctions de modération, peut être un peu trop, selon les premiers retours des utilisateurs. « Claude 3 Opus a refusé d’analyser “The Techno-Optimist Manifesto” de Marc Andreessen parce qu’il était trop politiquement controversé », avance Ray Fernando, ex-ingénieur logiciel chez Apple et fondateur de TruthTorch.ai, sur X. D’autres utilisateurs se font l’écho de résultats en dessous de GPT-4, notamment au moment de l’intégrer avec une architecture RAG qui analyse plusieurs documents en provenance de différentes sources. La majorité des retours sont toutefois positifs, même s’il est difficile d’évaluer la crédibilité de propos d’internautes.
Clairement, l’annonce d’Anthropic lui a permis de revenir sur le devant de la scène, avec une réponse pertinente aux solutions et promesses de GCP, OpenAI, Microsoft et Mistral AI.
John TreadwayCEO, AI Technology Partner
Pour autant, cette course à l’armement ne serait pas réellement utile pour les clients, selon David Cushman. « Nous nous trouvons dans une situation embarrassante où les entreprises doivent déterminer elles-mêmes ce qui vaut la peine d’utiliser cette technologie », déclare-t-il. « C’est une bonne chose que cette course à l’armement continue. Je pense que nous en bénéficierons tous au bout du compte. Mais en attendant, les entreprises doivent se tourner vers un expert intermédiaire ».
Justement, sur LinkedIn, un de ces intermédiaires s’exprime sur le fait que la puissance des modèles n’est pas forcément clé pour les entreprises et les métiers. « Le fait de se vanter que tel modèle est meilleur que tel autre est une impasse », lâche John Treadway, CEO d’AI Technology Partners, un partenaire de Microsoft, sur LinkedIn. « La clé réside dans la manière dont vous fournissez votre solution et dont vous évitez aux utilisateurs de subir des à-coups », poursuit-il. « Si vous pouvez échanger des modèles en arrière-plan sans que l’utilisateur ne voie rien d’autre qu’une amélioration des performances (vitesse, fiabilité, précision, etc.), ils se moquent de vos prétentions aux benchmarks. Et ce qui leur importe se situe souvent bien au-dessus de la couche du modèle : convivialité, fonctionnalité et intégration ».