IA : Groq lève 640 millions de dollars pour muscler son cloud dédié à l’inférence

La société américaine continuera de concevoir des puces consacrées à l’IA et de mettre à jour sa suite logicielle, deux domaines dans lesquels Nvidia règne en maître. Cependant, elle mise avant tout sur une plateforme concurrente de Vertex AI, Amazon Bedrock ou Azure AI.

par

Gaétan Raoul, LeMagIT
Esther Ajao, News Writer

Publié le: 06 août 2024

La startup Groq, spécialisée dans l’inférence de charge de travail d’IA, a révélé lundi qu’elle avait levé 640 millions de dollars, lors d’un tour de table de série D, ce qui porte sa valorisation à 2,8 milliards de dollars.

La collecte de fonds a été conduite par BlackRock Private Equity Partners avec la participation de Neuberger Berman, Type One Ventures, et d’investisseurs stratégiques, dont Cisco Investments, KDDI Open Innovation Fund III de Global Brain, et Samsung Catalyst Fund.

Dans le cadre de cette opération, Groq annonce avoir attiré un conseiller technique de choix, Yann LeCun en personne, le fameux directeur scientifique pour l’IA chez Meta.

En outre, la startup a récemment embauché Stuart Pann, ex-SVP et directeur général d’Intel Foundry Services. Celui-ci a pris la direction des opérations financières chez la startup.

Groq ne croquera pas Nvidia : elle fonde ses espoirs sur GroqCloud

Groq intervient sur un marché dominé par le géant du matériel et des logiciels d’IA Nvidia.

Mark Beccue, analyste chez Enterprise Strategy Group de TechTarget [propriétaire du MagIT], estime toutefois que l’importance des capitaux levés par Groq semble être un vote de confiance pour ce fournisseur de solutions d’inférence d’IA.

« Nous n’avons pas vu ce genre de financement attribué à un concepteur de puces dernièrement », remarque Mark Beccue.

Groq a été fondée en 2016 par Jonathan Ross, un ancien ingénieur de Google. Ce dernier a conçu et mis en œuvre les fondements de la puce de traitement tensoriel (Tensor Processing Unit ou TPU) de Google.

La startup conçoit des accélérateurs consacrés à l’inférence de charge de travail du traitement du langage naturel, les Language Processing Unit (LPU). Ces LPU, nommés GroqChip, sont embarqués dans des racks 42U, qui propulsent la plateforme à la demande GroqCloud, ou sont déployés sur site.

GroqCloud est une plateforme codéveloppée avec Definitive Intelligence, une startup acquise par Groq en mars 2024.

La startup mise sur la première modalité de déploiement : elle prévoit de déployer plus de 108 000 LPU d’ici la fin du premier trimestre 2025 afin de propulser GroqCloud.

Ce service est hébergé sur un datacenter maison, installé à Spokane, dans l’État de Washington. Groq a par ailleurs signé en avril une lettre d’intention avec Earth Wind & Power pour déployer 21 600 LPU dans un centre de données en Norvège en 2024 et pourrait en livrer 129 600 d’ici à la fin de l’année 2025.

Jonathan Ross était alors très confiant sur le parc de LPU installés avant 2026 : il tablait sur 1,5 million d’unités. En outre, Groq a signé un accord avec la filiale « digital » du géant saoudien du pétrole Aramco et un partenariat avec Carahsoft, un fournisseur IT de l’administration américaine.

Selon les propos du CEO, Groq prévoyait de lever 300 millions de dollars pour déployer ces LPU. « Nous avons levé deux fois plus d’argent, ce qui nous permet d’agrandir nos équipes d’ingénierie “cœur” et cloud », avance-t-il.

Plus de 356 000 développeurs auraient utilisé GroqCloud. Précisons que Groq permet de tester les modèles gratuitement suivant une limite d’usage et propose des tarifs au million de tokens compétitifs. Néanmoins, Stuart Pann a déclaré auprès de TechCrunch que ces développeurs étaient avant tout issus des entreprises du Fortune 500.

Ailleurs, ces LPU sont accompagnés d’une suite logicielle, bas et haut niveau (GroqWare Suite). Groq vante la vitesse d’inférence offerte par son infrastructure capable de faire « cracher » plus de 325 tokens à la seconde à Llama 3-70B par utilisateur et plus de 1 250 tokens par seconde à Llama 3-8B.

Il faut dire que neuf serveurs GroqNode (dont un dédié à la redondance) équipant des puces interconnectées avec une technologie réseau « chip to chip » maison (RealScale Network) offrent jusqu’à douze Pétaflops de capacité de traitement en encodage FP16, le format de choix pour l’inférence.

Comme l’a déjà expliqué LeMagIT, la startup ne s’appuie pas sur une mémoire externe très rapide (GDDR6 ou HBM3) à l’instar de Nvidia. A contrario, Chaque « GroqChip » dispose d’une zone de cache « sur le die » qui est ensuite partagée entre les LPU. Groq peut interconnecter jusqu’à 64 puces se répartissant 14 Go de SRAM (230 Mo de mémoire vive SRAM par puce). Chaque puce a une capacité de traitement de 188 TFLOPS en FP16.

Une rapidité contrebalancée par la lenteur de compilation des LLM, environ cinq jours par modèle. Avantage tout de même, le « compileur » ne s’appuie pas sur un kernel, ce qui, en principe, évite les soucis de personnalisation rencontrée par les fournisseurs de LLM.

La startup a fait graver sa première génération de puces en 14 nm dans les usines de GlobalFoundries. La deuxième génération de LPU sera gravée par Samsung en 4 nm.

Bien que son architecture soit similaire à celle des TPU de Google et qu’elle vise le marché de l’inférence, il serait exagéré de dire que Groq est en train de s’opposer à Nvidia, selon Chirag Dekate, analyste chez Gartner. « Nvidia est très bien implanté », rappelle-t-il. « Du silicium aux systèmes logiciels ».

Toutefois, la pénurie de GPU sur le marché de l’inférence de l’IA crée des opportunités pour les concurrents de Nvidia et d’autres startups comme Groq.

« La communauté des investisseurs sent qu’il y a un déséquilibre entre l’offre et la demande autour des GPU et le marché récompense toute alternative qui peut aider à combler ne serait-ce qu’une partie de l’écart », considère Chirag Dekate.

La série D de 640 millions de dollars pour Groq ne représente qu’une fraction du chiffre d’affaires réalisé par Nvidia au cours d’un trimestre et la levée de fonds est donc, d’une certaine manière, une opération de couverture (hedge) pour les investisseurs, ajoute-t-il.

Nvidia ne doit pas se reposer sur ses lauriers, préviennent les analystes

Cependant, la montée en puissance annoncée de Groq peut être le coup de pouce dont Nvidia a besoin pour se remettre en question, considère Olivier Blanchard, analyste chez Futurum Group.

« L’un des dangers d’avoir des entreprises extrêmement dominantes dans un secteur particulier comme celui-ci, c’est que si elles ne sont pas vraiment remises en question, vous risquez de vous retrouver avec une innovation très linéaire, très prévisible », affirme-t-il.

Ce type d’innovation à rythme régulier comporte des aspects positifs, notamment la facilité de compréhension et la possibilité de budgétiser la feuille de route produit.

D’un autre côté, un processus d’innovation prévisible pourrait également allonger le temps nécessaire à la mise sur le marché de bons produits.

« Si personne ne défie vraiment Nvidia, elle se contentera de mener une politique d’innovation confortable, au lieu de repousser ses propres limites », lance-t-il.

Si l’analyste ne le cite pas, Intel fait les frais d’une stratégie d’innovation déséquilibrée. L’entreprise dirigée par Pat Gelsinger s’est lancée tardivement dans le développement de GPU, a deux générations de gravure de retard sur TSMC, et a été surpris par les avancées des CPU ARM dans le segment grand public.

Nvidia et AMD n’ont pas le même problème puisqu’ils s’appuient uniquement sur les capacités de fabrication de TSMC et de leurs partenaires équipementiers. Pour autant, les gains de performance entre des GPU comme les Nvidia A100 et H100 ont été obtenus au détriment d'une consommation et d’une enveloppe thermique plus élevées. La prochaine génération de cartes B200 affiche un gain de performance autour de 30 % par rapport au GPU H100, autant (voire moins) que la hausse de la consommation électrique.

Groq ne défiera peut-être pas Nvidia dans l’immédiat, mais il pourrait inciter ce géant des GPU à aller de l’avant pour conserver sa place de leader, ajoute Olivier Blanchard.

La présence d’un plus grand nombre d’entreprises spécialisées dans l’IA tend également à diversifier la chaîne d’approvisionnement, ce qui se traduit par une augmentation des capacités de production, toujours selon l’analyste.

Pour l’heure, Groq entend surtout proposer un service d’IA générative similaire à ce que fournit Azure, GCP et AWS tout en étant indépendant des fournisseurs de cloud. Eux-mêmes cherchent à gagner en autonomie face à Nvidia en développant leurs propres puces d’IA et en se procurant celles d’Intel et d’AMD.

Une ambition remise en doute par Chirag Dekate. « De nombreuses entreprises qui exploitent l’IA ne vont probablement pas se tourner vers des fournisseurs spécialisés, si elles ont déjà investi des millions de dollars dans leurs fournisseurs de cloud existants tels qu’AWS, Microsoft et Google », lance l’analyste chez Gartner

« Une utilisation épisodique de l’inférence peut avoir du sens, mais je ne pense pas qu’il s’agisse d’un enjeu stratégique pour les entreprises », estime-t-il. « Il s’agit plutôt d’un modèle pour les innovateurs qui peuvent accéder à un grand nombre de ces ressources à faible coût ».

Les risques auxquels s’expose Groq

Pour Groq, il serait peut-être préférable d’utiliser le nouveau financement pour construire une pile complète et se développer sur le marché de l’entraînement afin d’offrir une alternative à Nvidia dans ce domaine également, recommande-t-il.

Dans un même temps, le marché global de l’IA générative crée une opportunité pour Groq, estime Mark Beccue.

Cette technologie implique le déploiement de charges de travail massives qui créent des ouvertures pour les fournisseurs dans les domaines de l’entraînement et de l’inférence.

Cela a conduit à un certain succès commercial pour des puces telles que Gaudi d’Intel pour l’inférence et le dernier accélérateur MI325X d’AMD.

Bien que Groq soit, d’une certaine manière, dans une situation similaire à celle d’Intel et d’AMD, c’est-à-dire celle d’un « challenger » face à Nvidia, le coût de production sera un défi pour la startup, anticipe Mark Beccue.

« Il s’agit d’une activité à haute intensité capitalistique », prévient-il. « Cette industrie n’est pas une sinécure pour les startups ».

Le gouvernement américain a encouragé les fournisseurs de puces avec des programmes tels que le CHIPs Act. Intel, Micron et Samsung ont tous reçu des fonds dans le cadre de cette loi de programmation.

IA : Groq lève 640 millions de dollars pour muscler son cloud dédié à l’inférence

La société américaine continuera de concevoir des puces consacrées à l’IA et de mettre à jour sa suite logicielle, deux domaines dans lesquels Nvidia règne en maître. Cependant, elle mise avant tout sur une plateforme concurrente de Vertex AI, Amazon Bedrock ou Azure AI.

Groq ne croquera pas Nvidia : elle fonde ses espoirs sur GroqCloud

Nvidia ne doit pas se reposer sur ses lauriers, préviennent les analystes

Les risques auxquels s’expose Groq

Pour approfondir sur Hardware IA (GPU, FPGA, etc.)

Dossier puces pour l’IA : les alternatives à Nvidia

IA : les analystes prédisent l’éclatement de la bulle des mémoires HBM

Cerebras Systems présente la 3e version de sa puce géante

Hot Chips 2024 : de l’accélération pour l’IA, le réseau et les applications