Le Cern dope ses baies NetApp avec la technologie FlashPools
Initialement utilisateur de cartes PCIe Flash Cache pour doper ses clusters NetApp, le Cern utilise désormais la technologie de pools hybrides FlashPool mixant SSD et disques durs.
Le Centre Européen de la recherche nucléaire (Cern), berceau du grand colisionneur de Hadrons (cf. photo ci-dessous) a sensiblement amélioré la performance de ses systèmes de stockage NAS et réduit fortement ses achats de disques durs en optant pour la mise en œuvre d’un étage de Flash dans ses systèmes de stockage NAS en cluster NetApp FAS.
Le Cern utilise des baies de stockage NetApp depuis 2007, date à laquelle le constructeur a remporté un appel d’offre de stockage de grande ampleur et ces baies de stockage sont devenues la référence de stockage pour les bases de données Oracle du centre de recherche.
Désireux d’améliorer les performances de ses bases de données, le Cern a tout d’abord mis en œuvre la technologie de cache Flash PCIe Flash dans les contrôleurs des baies NetApp participant à son cluster (environ 2 Po de stockage), mais il a plus récemment décidé d’opter pour une autre approche, jugée plus extensible, celle de la mise en œuvre de la technologie FlashPools du constructeur, à base de SSD conventionnels.
Doper les performances des bases de données du LHC
Le Cern opère actuellement plusieurs clusters Ontap dont un cluster de production basé sur la version 8.2.2P1 de l’OS de NetApp, qui comprend actuellement 14 nœuds FAS 6220. Ce cluster est complété par plusieurs autres configurations moins ambitieuses dont un cluster de deux nœuds FAS 6220 pour le test et le développement, un autre de quatre nœuds FAS8060, pour la sauvegarde des données et un cluster de quatre nœuds FAS8040 en Hongrie pour la reprise après sinistre.
Les clusters sont connectés aux serveurs Oracle via des liens 10 gigabit Ethernet et le Cern met en œuvre la technologie Direct NFS d’Oracle, qui permet au moteur de base de données d’accéder directement au stockage sans passer par la pile NFS du système d’exploitation.
C’est afin d’accélérer la performance des bases de données utilisées pour l’ingénierie, le contrôle et l’administration du grand colisionneur de Hadrons - l’accélérateur de particules conçu pour valider l'existence du boson de Higgs et ses caractéristiques -, que le centre de recherche a tout d’abord commencé à s’intéresser à la Flash. Ses premiers efforts en la matière l’ont amené à déployer des cartes PCIe FlashCache dès 2010 dans le but de doper les performances de son cluster de production Ontap.
Un second objectif était de limiter le nombre de disques durs nécessaires pour délivrer la performance requise par les applications. Précédemment, le Cern faisait usage de ce que l’on appelle le Short Stroking, en ajoutant des disques additionnels pour améliorer les performances IOPS de ses systèmes de stockage, sans toutefois faire pleinement usage de leur capacité.
Comme l’explique Eric Grancher, en charge des services de bases de données au Cern: « Nos volumes de données progressent très rapidement, certaines de nos bases augmentant de 100 To par an. Afin de faire face à ces besoins de capacité mais aussi afin de maintenir les performances, nous ajoutions jusqu’alors plus de “ spindles” ».
Afin de rompre ce cercle infernal, l’équipe de Grancher a commencé à déployer des cartes FlashCache pour abaisser la latence d’accès au stockage pour certaines applications clés. Mais le Cern a rapidement touché aux limites de ce que pouvait offrir la technologie FlashCache.
« Nous avons finalement décidé d’utiliser des SSD à la place des cartes FlashCache car la technologie est plus extensible – vous pouvez ajouter des SSD plus facilement. Les cartes PCIe flash ont des limitations ; il n’y a tout simplement pas assez d’emplacements PCIe disponibles [dans les contrôleurs NetApp, N.D.L.R]».
Une latence en forte baisse
En 2012, Grancher a donc commencé à mettre en œuvre la technologie FlashPool de NetApp qui permet de créer des pools hybrides combinant SSD et disques durs. L’étage de Flash est utilisé comme un cache en lecture et en écriture alors que les cartes PCIe FlashCache sont limitées au cache en lecture. Cette stratégie a permis à l’organisme d’obtenir des latences inférieures à la milliseconde sur ses opérations de bases de données. Comme l’indique Grancher, « Une base de données sur le cluster de 14 nœuds avec un profil d’entrées/sorties comprenant 71% d’écritures aléatoires en blocs de 8K affiche une latence inférieure à 1 ms, ce qui est très bon pour des I/O aléatoires ».
Pour Grancher, la mise en œuvre de la Flash permet de satisfaire les besoins en latence du Cern : « La Flash nous permet d’atteindre des latences inférieures à la milliseconde tout en réduisant le nombre de disques rotatifs ».
Toutes les applications n’ont toutefois pas besoin de Flash, indique Grancher. « Certains de nos volumes sont accélérés, d’autres non. Par exemple, nous n’avons pas besoin de la Flash pour les logs. Ces derniers étant séquentiels, il n’y a pas de réel bénéfice à l’usage de la Flash en lieu et place de disques durs ».