Cerebras Systems présente la 3e version de sa puce géante
La startup californienne vient de détailler son processeur WSE-3 aussi gros qu’un wafer lors de la conférence Hot Chips 2024. Sa supériorité par rapport à un Nvidia H100 dans les calculs d’IA n’est pas évidente.
LeMagIT avait déjà évoqué en 2019 la startup californienne Cerebras Systems et son processeur WSE géant qui occupe, à lui seul, toute la surface du wafer sur lequel il est gravé. La startup vient de refaire parler d’elle à l’occasion de l’événement Hot Chips 2024 qui s’est tenu la semaine dernière à l’université de Stanford, dans la Silicon Valley.
La nouvelle version de sa puce, le WSE-3, mesure toujours 21,5 cm de côté. Mais elle bénéficie d’une nouvelle finesse de gravure en 5 nm qui la rend bien plus dense que le tout premier modèle : on dénombre à présent 900 000 cœurs de calcul, contre 400 000 au départ, et 44 Go de mémoire embarquée, contre 18 Go précédemment. La quantité de données avalées à la seconde par les cœurs est à l’avenant : 21 Po/s (oui, 21 000 To/s !) contre 9 Po/s auparavant.
C’est d’ailleurs ce qui fait toute la différence entre cette puce – désormais positionnée comme un accélérateur d’IA – et le H100 de Nvidia, le GPU vedette de cette discipline dans les centres de calcul. Le H100 n’offre qu’une bande passante interne de 3,9 To/s. C’est 5 384 fois moins que le WSE-3, pour une taille seulement 57 fois plus petite. Son successeur, le H200, atteint 4,8 To/s. Guère mieux.
Difficilement comparable aux GPU de Nvidia
Pour autant, il faut sans doute relativiser la valeur de ces comparaisons, car ces chiffres concernent des fonctionnements qui diffèrent entre le WSE-3 et le H100.
Pour commencer, la notion de cœurs concernant les puces d’accélération est à prendre avec des pincettes. Le terme de cœurs a été inventé par les fabricants de processeurs pour simplement signifier qu’ils mettaient plusieurs exemplaires d’un processeur entier dans la même puce.
Nvidia a repris le concept pour marquer les esprits avec un nombre incroyable de 16 896 cœurs, mais son H100 est plus exactement un seul cœur avec 16 896 unités de traitement mathématique montées en parallèle, qui calculent chacune un fragment de la même information chargée depuis la mémoire. Ce n’est pas du tout la même chose. Il en va de même pour le WSE-3 : il s’agit plus exactement d’une puce contenant 84 processeurs ayant chacun environ 11 000 unités de traitement.
De fait, le WSE-3 a véritablement beaucoup de cœurs pour traiter en parallèle des informations qui n’ont rien à voir entre elles. Le H100 a un seul gros cœur plus puissant que les cœurs individuels du WSE-3 pour traiter plus finement un bloc gigantesque de données (une matrice).
Poussons le raisonnement encore plus loin. Les 84 cœurs du WSE-3 se partagent 44 Go de mémoire, soit environ 512 Mo par cœur. Un H100 accède quant à lui à 80 Go de mémoire embarquée. Cette fois-ci, c’est plus de 150 fois mieux à la faveur du H100.
Cerebras Systems met en avant sa bande passante extrême, parce que la mémoire embarquée du WSE-3 est en fait le cumul des mémoires caches directement accrochées au pipeline de chaque cœur. Mais si la bande passante interne du H100 est plus faible, c’est parce que la mémoire dont on parle est installée sur un circuit HBM, gravé à part, et relié au cœur via un nombre limité de connexions entre les bus des deux circuits.
De ce point de vue, cela signifie qu’un WSE-3 perdrait en théorie beaucoup plus de temps pour récupérer ses données de travail, devant accéder sans cesse au stockage. Alors qu’un H100 pourrait mener tout un train de calculs à partir d’un seul accès au stockage.
Le besoin de réécrire les algorithmes des modèles d’IA
En partant d’architectures si différentes, il n’est pas du tout évident qu’un WSE-3 soit plus performant qu’un H100 quand il s’agit d’exécuter des algorithmes écrits pour le H100. Et c’est d’ailleurs ce que Cerebras Systems sous-entend quand il invite sur son site à repenser totalement la manière d’écrire les algorithmes d’entraînement de modèles.
Sean LieChief Hardware Architect and Co-Founder, Cerebras
On peut ainsi y lire : « Les techniques de Machine learning existantes montrent que les modèles pourraient être non denses. Chez Cerebras, nous nous appuyons sur ces conclusions et créons des techniques de Machine Learning clairsemé adaptées à nos solutions. Nos premiers travaux ont montré qu’il est possible de réduire de manière importante la densité dans les modèles GPT, tout en préservant la précision du modèle. Même si nous n’en sommes qu’au début, ces résultats montrent que la très faible densité est une voie pour permettre à l’industrie de continuer à croître de manière efficace et durable. » (Sean Lie, chief Hardware Architect and Co-Founder, Cerebras)
Signalons que la startup a également mis au point un serveur, baptisé CS-3, pour embarquer un exemplaire de sa puce. Il mesure 16U de haut et consomme 23 kW. Soit la même chose que deux serveurs x86 embarquant chacun 8 GPU H100. Toujours selon Cerebras, la puissance de calcul « brute » atteinte par ce serveur sur l’entraînement de modèles serait de 125 Pétaflops, contre environ 32 Pétaflops pour les deux serveurs dotés de GPU H100 montés sur socle SXM. Mais là encore, il faudrait pouvoir se baser sur des benchmarks réels pour comparer ces performances.
Une puce plutôt dédiée à l’inférence, finalement
Enfin, lors de son exposé, à l’occasion de l’événement Hot Chips 2024, il est notable que Cerebras Systems n’ait plus présenté sa puce comme un accélérateur pour entraîner les modèles d’IA, mais uniquement pour faire de l’inférence, c’est-à-dire utiliser des modèles déjà entraînés. Selon les présentations, un serveur CS3 pourrait analyser 1 800 tokens par seconde et par utilisateur avec un modèle Llama 3.1 possédant 8 milliards de paramètres. Un H100 ne pourrait analyser que 242 tokens dans la même situation. La puce accélératrice d’inférence de Groq atteindrait 750 tokens, et le service OpenAI d’Azure 79 tokens.
Un token est une particule de sens dans une phrase : un mot, son emplacement, la manière dont il est accordé ou conjugué sont trois exemples de tokens. L’analyse consiste à se servir des valeurs numériques attribuées aux tokens comme des vecteurs permettant de cheminer parmi les connaissances d’un modèle d’IA pour générer un nouveau contenu. On précise « par utilisateur », car tous les tokens des prompts successifs d’un même utilisateur (dans une certaine limite) sont analysés ensemble.
Mais même en tenant compte de ces informations, les résultats affichés par Cerebras Systems ne disent rien de l’énergie dépensée ni du degré d’efficacité de son architecture par rapport à un cluster entier de GPU H100.
La startup a conclu son exposé en expliquant que ses processeurs servaient à l’heure actuelle à construire un réseau de supercalculateurs dans le monde. Baptisé Condor Galaxy, il est financé par l’Arabie Saoudite et doit être implanté sur au moins neuf sites comprenant chacun 64 serveurs. Cerebras entend aussi à un moment ou à un autre proposer un service en ligne, qui permettrait d’utiliser ses puces pour l’inférence. Comme Groq. L’avantage ne serait pas que ce service en ligne irait plus vite que les autres, mais qu’il serait moins cher : 0,60 $ par million de tokens contre un peu moins de 3 $ ailleurs.