Semiconducteurs : la mémoire HBM4 disponible plus tôt que prévu

La prochaine évolution de cette mémoire essentielle dans les performances de l’IA sera normalisée dès la rentrée prochaine. Les produits pourraient arriver avec une année d’avance sur le marché.

Le JEDEC, l’organisme qui s’occupe de normaliser les technologies des composants électroniques pour les rendre interopérables, annonce que le standard des mémoires HBM4 sera finalisé plus tôt que prévu. Dès la rentrée prochaine, SK Hynix, Samsung et Micron sauront comment fabriquer ces circuits qu’ils prévoyaient, au mieux, de produire dès 2026. Cette accélération du calendrier pourrait contribuer à une disponibilité des mémoires HBM4 dès la fin de 2025.

Pour l’organisme, qui compte parmi ses membres Intel, Nvidia, AMD, Ampere, Microsoft et autres Google, il était essentiel d’avancer vite sur cette mémoire absolument critique dans les performances de l’IA générative et le supercalcul.

La mémoire HBM est une DRAM qui n’est plus située sur la carte mère, mais directement intégrée dans la puce de calcul ; soit le processeur ou le GPU. Contrairement aux mémoires LPDDR qu’Apple intègre aussi dans ses processeurs Silicon, la mémoire HBM ne communique pas avec les cœurs de calcul via un bus DRAM traditionnel, dont les différentes strates sont susceptibles d’agir comme un goulet d’étranglement.

À la manière de la mémoire cache, les cellules d’une mémoire HBM communiquent directement avec les cœurs via des canaux dédiés, à la fréquence dictée par les cœurs. En somme, la mémoire HBM présente l’intérêt d’offrir la même capacité que la DRAM, mais à la vitesse d’une mémoire cache L2 ou L3.

Jusqu’à 64 Go de RAM HBM par empilement de 16 circuits

Selon les directives déjà connues de la mémoire HBM4, ses deux particularités fonctionnelles seront de communiquer 2 048 bits à la fois, contre 1 024 bits sur l’actuelle mémoire HBM3E, et de proposer 33 % de capacité en plus. Ces améliorations impliquent cependant une réarchitecture complexe du circuit mémoire. En l’occurrence, il faut parvenir à faire tenir ces améliorations dans un volume qui n’augmentera pas d’autant la taille des puces finales.

Il a été décidé que l’architecture HBM4 permettrait d’empiler 16 circuits DRAM, contre un maximum de 12 en HBM3E. Chaque circuit DRAM contiendra 4 Go, contre 3 Go en HBM3E. Ainsi, un seul composant HBM4 pourra offrir 64 Go de RAM, contre 36 Go en HBM3E. L’empilement permet d’augmenter le nombre des voies de communication et la capacité sans occuper plus de surface, mais il ne faut pas qu’il se traduise par une épaisseur 33 % plus importante. 

Une mémoire HBM3E, composée de 12 circuits de DRAM empilés plus un circuit de communication, est épaisse de 720 micromètres (0,72 millimètre). Le JEDEC a consenti que cette épaisseur pourrait grimper à 775 micromètres en HBM4. Initialement, les fabricants pensaient produire des circuits de DRAM gravés à la surface avec une finesse de 12 nm et un circuit de communication gravé à la surface avec une finesse de 10 nm. Cependant, pour réduire l’épaisseur, il semble que les fabricants seront obligés de graver les circuits en 5 nm. Samsung annonce même plancher sur un circuit de communication gravé en 4 nm.

Il existe un concept élaboré par SK Hynix qui proposait de plutôt partir sur un empilement moindre de circuits de DRAM plus capacitifs, lui-même empilé au-dessus de la puce de calcul. Cette approche aurait permis de minimiser encore plus la taille de la puce – notamment la surface occupée – mais elle aurait manifestement posé de trop importantes contraintes de dissipation thermique.

Reste à savoir si SK Hynix, Samsung et Micron auront les moyens industriels de graver des circuits de DRAM à de telles finesses. Les deux premiers ont récemment annoncé de lourds investissements dans leurs moyens de fabrication de mémoire HBM. On comprend désormais mieux pourquoi.

La mémoire HBM, composant essentiel d’une IA performante

Si la mémoire HBM est si critique, c’est parce qu’elle permet à la puce de calcul d’accéder à une très grande quantité d’informations à une vitesse proche de celle de sa mémoire cache. Dans le monde des serveurs, la mémoire HBM n’a d’abord été utilisée que dans les GPU de Nvidia et AMD dédiés à l’entraînement de modèles d’IA. Intel, avec son GPU Gaudi3, l’utilise à présent pour accélérer l’inférence sur des serveurs moins chers.

Pour autant, la seule présence d’une grande capacité de mémoire intégrée au processeur lui permettrait de rivaliser avec des cartes GPU dédiées au calcul. C’est ce qu’Intel prévoit de faire avec le Xeon Max. Ce sera aussi le cas du super processeur ARM européen, le Rhea.

Même à l’échelle d’un simple PC, il a ainsi été démontré que les processeurs Silicon M des Mac et SnapDragon X des PC CoPilot+ étaient plus rapides que les processeurs Core d’Intel ou Ryzen d’AMD pour utiliser localement des modèles d’IA, dont la taille s’échelonne entre 8 et 32 Go. Et, ce, parce que les GPU intégrés à ces processeurs accèdent à une DRAM de 16, 32 ou 64 Go qui est, elle aussi, intégrée au processeur.

En clair, même avec leurs circuits dernier cri conçus exprès pour accélérer les opérations matricielles de l’IA, les processeurs d’Intel et AMD se font distancer dans les tests à cause de l’accès à une DRAM externe. Leur mémoire cache intégrée, d’à peine quelques dizaines de Mo, est inefficace avec des algorithmes qui sautent sans cesse d’un bout à l’autre des données vectorielles d’un modèle pour générer du contenu.

Et encore, dans ces exemples, il ne s’agit pas véritablement de mémoire HBM, mais de LPDDR plus conventionnelle et beaucoup plus lente. Remplacer cette mémoire LPDDR par de la HBM serait en projet chez Apple, avec l’idée de proposer des machines d’appoint excessivement performantes pour l’inférence.

En mai dernier, le cabinet AltIndex estimait que le marché des semiconducteurs pour l’IA serait multiplié par dix d’ici à dix ans. En 2023, ce marché avait pesé 23 milliards de dollars, dont 13,5 mds $ étaient issus de la vente de GPU Nvidia, alors seul sur le marché, et 9,5 mds $ de la vente (à Nvidia, principalement) de mémoires HBM.

Pour approfondir sur Processeurs et composants