Gemini : une nouvelle puce 100 fois plus rapide pour l’IA
La startup GSI lance une puce mémoire où chaque bit d’information est relié à un microcircuit de traitement. Il en résulte un accélérateur inédit pour la reconnaissance faciale.
Cent fois plus rapide qu’un Xeon pour 70 % d’énergie consommée en moins, telle est la promesse d’une puce accélératrice d’un nouveau genre, le Gemini, mis au point par GSI Technology. Cette startup américaine spécialisée dans la fabrication de mémoires a eu l’idée de développer un composant qui se présente au serveur hôte comme une extension de RAM, sauf que chacun de ses bits est relié à un microcircuit spécialisé dans un seul type de fonction.
En clair, chaque information d’une base de données est automatiquement traitée, dès lors que le processeur la charge depuis le disque dur pour la stocker en mémoire. Une telle architecture permettrait non seulement d’effectuer des traitements massivement parallèles, mais éviterait aussi toute la latence induite par les allers-retours des données entre la mémoire d’un serveur, ses caches et son processeur.
En ce qui concerne la puce Gemini, premier produit bénéficiant d’une telle conception, la fonction accolée à chacun de ses bits est la découverte de similitudes, une opération-clé dans les applications de reconnaissance faciale, de recherche pharmaceutique et d’analyse du langage.
Lors d’une démonstration effectuée par GSI, un serveur équipé de quatre coprocesseurs Gemini serait ainsi parvenu à identifier un individu parmi un milliard en 1,25 milliseconde, ou 800 individus en une seconde. Un serveur similaire, mais dépourvu de puces Gemini n’arriverait à identifier un individu qu’en 125 millisecondes, soit 8 individus par seconde.
Dans ce test, chaque puce Gemini a comparé 128 000 signatures 768 bits, correspondant chacune à 96 caractéristiques-clés d’un visage.
Deux millions de cœurs 1 bit
GSI appelle sa puce Gemini une APU (pour Associative Processing Unit). Au centre, on y trouve un composant de 256 Ko de SRAM, c’est-à-dire de la mémoire utilisée d’ordinaire pour le cache. La particularité de ce composant de SRAM est que les 2 097 152 bits qu’il contient sont chacun connectés à un microcircuit fonctionnel. GSI parle ici de plus de deux millions de « cœurs », mettant en valeur un chiffre bien plus impressionnant que les 28 cœurs d’un Xeon, les 104 cœurs d’un GPU Nvidia A100 ou même les 1 216 cœurs d’un ASIC spécialisé en IA comme le Graphcore.
Certes, il s’agit ici de cœurs minimalistes, qui ne traitent qu’un seul bit à la fois. Il n’empêche, l’arithmétique donne l’avantage à la puce de GSI : comparativement, à chaque cycle, un Xeon n’avale que 28 672 bits (28 cœurs x 2 bus x 512 bits), un A100 que 425 984 bits (104 cœurs x 1 bus x 4 096 bits) et un Graphcore que 77 824 bits (1 216 cœurs x 1 bus x 64 bits).
Ces 256 Ko de SRAM intelligente sont reliés à une mémoire cache de 12 Mo, afin de pouvoir ingurgiter les bits d’information à la vitesse de 26 To/s, contre 1 To/s sur Xeon, 7 To/s sur NVidia A100 et 16 To/s sur Graphcore. Ces 12 Mo sont directement disponibles dans l’adressage mémoire du serveur.
Une puce Gemini fonctionnant à seulement 400 MHz, elle consomme 60W, contre 205W pour un Xeon à 2,7 GHz, 400W pour A100 à 1,4 GHz et 150W pour un Graphcore à 1,6 GHz. On notera que ces 400 MHz sont la fréquence qui permet exactement de traiter l’intégralité des 12 Mo de cache pendant que le processeur remplit cette mémoire avec les 12 Mo de données suivantes.
GSI propose son accélérateur sous la forme d’une carte PCIe contenant deux Gemini et une RAM traditionnelle de 16 Go pour stocker les données que le processeur veut traiter. Cette carte est annoncée au prix de 15 000 $. Un laboratoire de recherche, l’institut Weizmann, utiliserait déjà cette carte pour accélérer ses simulations moléculaires à partir d’une base de données contenant 16 millions d’empreintes 1 024 bits.
GSI assure qu’il est possible d’insérer quatre cartes PCIe de ce type dans un simple serveur Rack de 1 U.