Hot Chips 2024 : Intel dévoile des puces axées sur le haut débit

À l’occasion du salon qui se tient cette semaine à l’université de Stanford, Intel a présenté un Xeon 6-D conçu pour router très rapidement les données de l’IA et un chip OCI capable de les transférer à pleine vitesse jusqu’à l’autre bout d’un datacenter.

Cette semaine, les principaux designers de semiconducteurs dévoilent en avant-première leurs prochaines puces lors de l’exposition Hot Chips 2024, organisée par la prestigieuse université de Stanford, dans la Silicon Valley.

Si pour AMD et Qualcomm il s’agit juste de détailler leurs prochaines générations de processeurs à base de cœurs Zen5, pour le premier, et baptisés Snapdragon X Elite, pour le second, Intel a plutôt joué la carte de l’innovation avec une version SoC de son imminent Xeon 6 et un chipset qui interconnecte des puces via des liens optiques.

« Oui, il est essentiel de disposer de semiconducteurs plus performants et d’une bande passante plus large, mais Intel sait également que chaque charge de travail présente des défis uniques. Il n’est plus possible de réutiliser dans les succursales des composants conçus pour le data center. Notre approche est donc de fournir aux utilisateurs et aux entreprises les plateformes, les systèmes et les technologies pour redéfinir ce qu’il est possible de faire », a lancé Pere Monclus, directeur technique de la division Network & Edge chez Intel.

Un Xeon 6-D pour router, analyser et transformer les données en très haut débit

La version SoC (« System-on-Chip », soit un processeur plus d’autres circuits, dans une seule puce) du Xeon 6 succédera aux Xeon D-2700 et D-1700 qu’Intel avait lancés en 2022. Sur une base de processeurs Xeon (Scalable) 4, ces puces étaient destinées à motoriser les équipements réseau et les serveurs tout intégrés qu’utilisent les usines ou les télécoms. La version à base de Xeon 6 apportera la puissance pour traiter des algorithmes d’IA.

« Il n’est plus possible de réutiliser dans les succursales des composants conçus pour le data center. »
Pere MonclusDirecteur technique de la division Network & Edge, Intel

Deux types d’usages sont prévus.

D’une part, cette génération pourra servir à construire des serveurs qui pilotent toute une flotte de caméras connectées et interprètent en temps réel les images qu’elles filment. À ce titre, le Xeon 6-D serait 8 fois plus performant que les Xeon-D précédents dans la reconnaissance d’image. Et 6 fois plus performant dans la génération de nouvelles images d’après celles qu’il ingurgite. Cet exemple se décline dans tout autre type de communication qui nécessite une prise de décision à la volée.

D’autre part, on pourra la retrouver dans des routeurs de data centers qui non seulement routent beaucoup de communications simultanément, mais les convertissent aussi à la volée. On pense aux serveurs des médias en ligne qui ont besoin de diffuser des vidéos dans une multitude de formats. Outre la vitesse, le Xeon 6-D accepte de router directement des paquets Ethernet, du stockage et du CXL, c’est-à-dire les signaux PCIe entre des boîtiers serveurs et des boîtiers qui ne contiennent que des GPU, ou que de la RAM.

Une puce 100 % fabriquée par Intel

Le génie de cette nouvelle puce est pour autant moins à chercher dans ses usages que dans son design. Les différents circuits en surface sont interconnectés via des routeurs EMIB positionnés sous eux. Il s’agit des fameux dispositifs de communication codéveloppés avec le CEA-Leti et qui consistent à relier les pattes de chaque circuit verticalement et horizontalement avec des brins de 55 micromètres à peine pour éviter les déperditions de vitesse. 

Ces routeurs EMIB sont à la base de toutes les prochaines puces d’Intel qui seront conçues avec des « tuiles » – c’est-à-dire par assemblage de circuits gravés indépendamment, de sorte à minimiser les coûts – mais qui fonctionneront aussi vite que si les circuits avaient été gravés ensemble.

Les circuits de calcul sont gravés sur les nouvelles chaînes Intel 3 des usines Intel Foundry, c’est-à-dire avec une finesse de gravure de 7 nm censée être aussi efficace – en matière de densité et de consommation d’énergie – qu’une gravure en 3 nm chez le Taiwanais TSMC. Les circuits d’entrée-sortie sont quant à eux gravés sur les chaînes Intel 4, toujours avec une finesse de 7 nm, mais équivalente à une finesse de 5 nm chez TSMC. L’idée est de prouver qu’Intel n’aura désormais plus besoin de sous-traiter la fabrication de circuits à son concurrent asiatique.

Ce Xeon 6-D, alias « Granite Rapids D » disposera d’un ou deux circuits pourvus chacun d’une vingtaine de cœurs x86 « Redwood Cove » dits « Performants », c’est-à-dire capables d’exécuter deux threads simultanément. Contrairement aux cœurs x86 « Crestmont » qui n’exécutent qu’un seul thread et qu’Intel livre actuellement aux seuls hyperscalers, dans des Xeon 6 contenant jusqu’à 288 cœurs. Chacun de ces circuits dispose de 4 canaux DDR5 vers la mémoire.

L’intérêt des cœurs Redwood Cove de dernière génération est qu’ils intègrent chacun une unité AMX (Advanced Matrix Extension) censée accélérer les opérations vectorielles des algorithmes d’IA. Techniquement, une seule instruction suffit à parcourir une matrice de 16 x 64 octets.

Le troisième circuit est celui des entrées-sortie. On y trouve 8 contrôleurs Ethernet 25 Gbit/s (déclinables en 2x 100 Gbit/s), 32 contrôleurs PCIe 5.0 et 16 contrôleurs CXL.

Sont également présents quatre accélérateurs. Un pour le routage. Un pour le traitement à la volée des paquets réseau ; ce sont les mêmes fonctions que l’on trouve dans les IPU d’Intel et qui servent aussi bien à accélérer les communications Ethernet que NVMe-over-Fabric. Un « vRAN Boost » pour le décodage des signaux radio 4G/5G. Et un QuickAssist pour compresser/chiffrer/encoder les données à la volée.

L’un dans l’autre, ce Xeon 6-D devrait être capable de router et de traiter à la volée 2 à 2,5 fois plus de données que les précédents Xeon D-2700 et D-1700.

OCI pour émettre des térabits par seconde sur des fibres de 100 mètres

Le nouveau chipset OCI d’interconnexion de semiconducteurs par liens optiques est l’aboutissement d’années de recherche par Intel sur les composants photoniques. La puce est capable d’émettre et de recevoir des signaux lumineux sur 64 fibres, chacune avec une bande passante de 32 Gbit/s par direction (soit 2 x 2,176 Tbit/s) et avec une puissance suffisante pour que le signal reste perceptible après avoir parcouru 100 mètres dans la fibre.

« OCI assure tout simplement aux réseaux qui relient les GPU aux CPU dans les datacenters d’IA et de supercalcul qu’ils vont pouvoir continuer à croître en vitesse [...]. »
Saeed FathololoumiPrincipal Engineer (Photonics Integration Lead), Intel

« Cela représente un bond technologique significatif en matière de puces d’interconnexion réseau à très haut débit. OCI assure tout simplement aux réseaux qui relient les GPU aux CPU dans les datacenters d’IA et de supercalcul qu’ils vont pouvoir continuer à croître en vitesse, que le chemin est tracé pour que de nouvelles architectures encore plus efficaces émergent », s’est exprimé Saeed Fathololoumi, le patron de la recherche photonique chez Intel, lors de l’événement Hot Chips 2024.

En pratique, Intel croit beaucoup à la popularité d’OCI dans la conception de clusters « désagrégés ». C’est à-dire où les CPU, le stockage NVMe, les barrettes de mémoire DRAM et les GPU sont tous déployés dans des machines à part, reliées entre elles par des connexions PCIe 5.0 qui ne prennent plus la forme de slots d’extension, mais celle de fibres optiques.

De telles architectures désagrégées sont actuellement fortement demandées par les hyperscalers, lesquels y voient la possibilité de construire des datacenters bien plus modulaires. Dans un contexte de pics d’activité incessants et de tensions sur la chaîne logistique des semiconducteurs, il leur paraît en effet pertinent de pouvoir par exemple déployer de nouvelles capacités de RAM sans attendre la livraison des CPU qui les accompagnent normalement sur la même carte mère.

Pour que ce soit clair : le Xeon 6-D se chargerait du routage, du traitement et de l’encodage logiques des paquets, tandis qu’OCI servirait à émettre et à réceptionner ces paquets à haute vitesse sur des fibres optiques qui interconnectent des circuits éventuellement situés en deux endroits diamétralement opposés d’un data center. À l’heure actuelle, une connexion fibre haut débit pour le CXL ne s’étend pas au-delà de quelques étagères rack.

Lunar Lake, le nouveau Core Ultra pour PC-AI

Intel a également profité de l’exposition Hot Chips 2024 afin de montrer pour la première fois des exemplaires fonctionnels de ses nouveaux processeurs Core Ultra pour PC-AI. Baptisée Lunar Lake, cette nouvelle génération de processeurs est également composée de plusieurs circuits assemblés en tuile.

La particularité de ce type de processeur Core est que, à l’instar de ses concurrents Apple Silicon Mx et Qualcomm Snapdragon X, il embarque dans un premier circuit toute la mémoire DRAM de l’ordinateur hôte. Il s’est en effet avéré que ce principe architectural – où les cœurs de GPU embarqués accèdent directement à l’intégralité de la RAM – est redoutablement efficace pour exécuter localement des algorithmes d’inférence sur un modèle préentraîné pesant plusieurs Go. En l’occurrence, les processeurs Lunar Lake intégreront jusqu’à 32 Go de DRAM LPDDR5 sur un circuit dédié.

Le second circuit est celui des cœurs de calcul. On y dénombre 4 cœurs performants « Lion Cove » qui partagent 12 Mo de cache, 4 cœurs économiques « Skymont » qui se partagent un cache commun de 4 Mo, 8 cœurs GPU Xe2 (pour la génération d’image et de contenu via l’IA), 1 cœur NPU 4 (pour la reconnaissance de texte et d’image en IA), un IPU capable d’encoder 40 Gbit/s de paquets réseau et 5,8 Gbit/s de signaux radio en Wifi 7. Ce circuit comprend également une mémoire cache L3 globale de 8 Mo.

De manière assez étonnante, la vraie particularité de ce processeur est que ses cœurs « performants » n’exécutent plus qu’un seul thread, comme les cœurs économiques. Selon Intel, pouvoir exécuter 8 threads – 4 performants et 4 économiques – en même temps est de toute façon déjà beaucoup sur des machines mono-utilisateur comparativement aux Xeon des serveurs qui, eux, doivent exécuter simultanément des centaines d’instances applicatives pour autant d’utilisateurs. D’autant que retirer le multithreading permettrait in fini à la puce de limiter sa consommation d’énergie à 30 W.

Malgré cette disparation du multithreading, les cœurs Lion Cove seraient en moyenne plus performants de 14 % que leurs prédécesseurs « performants ». Les cœurs Skymont seraient en moyenne 38 % plus rapides que leurs prédécesseurs « économiques » qui étaient déjà monothread. Ces évaluations ont été menées sur des benchmarks SPEC-CPU 2017 standardisés.

Pour approfondir sur Hardware IA (GPU, FPGA, etc.)

Close