En mal de stockage, Vialink opte pour l’hyperconvergence, moins chère
L’éditeur de logiciels SaaS pour le secteur bancaire voyait son activité menacée par une baie de disques à bout de souffle. Au moment de la remplacer, il s’aperçoit qu’un cluster Nutanix serait moins cher et plus simple.
L’éditeur de logiciels pour le secteur bancaire Vialink avait juste besoin d’une baie de disques plus performante, mais il a finalement opté pour une infrastructure hyperconvergée. Dans un premier temps, il ne s’agissait même pas de profiter de sa fonction supplémentaire de serveur ; la solution Nutanix retenue était tout simplement moins chère que les propositions alternatives qui n’offraient que du stockage. Dans un second temps, Vialink s’est aussi rendu compte que ce choix allait radicalement simplifier le quotidien de ses équipes techniques.
« Avant de faire ce choix, nous n’étions que trois pour gérer l’infrastructure informatique et notre quotidien était d’être particulièrement stressés face à une baie de stockage qui, au bout d’à peine deux ans, ne supportait déjà plus nos pics d’activité. Quand vous êtes dans une telle situation, vous vous dites qu’il est peut-être pertinent de changer radicalement de type d’infrastructure », témoigne Emmanuel Helfenstein, le responsable Systèmes & Réseaux de la société.
Les logiciels en SaaS de Vialink servent à numériser les processus réglementaires, principalement ceux des banques, notamment pour toutes les entités de la BPCE, mais aussi dans l’immobilier, où l’éditeur fournit une solution de signature électronique des baux à toutes les marques du groupe Citya (Laforêt, Century 21...). Son produit phare est KYC. Celui-ci récupère un scan des pièces administratives d’un client qui arrive dans une banque. Il fait de l’OCR, se connecte à des services tiers pour vérifier la véracité des pièces d’identité et, à la fin, attribue un score de confiance.
Le problème : une baie de stockage complexe, qui ne dépasse pas 7000 IOPS
Domaine réglementé oblige, Vialink n’utilise des ressources en cloud que pour entraîner ses modules de données, avec les GPUs virtuels de Google GCP. Tout le reste de ses traitements se fait dans l’intimité de ses deux datacenters privés.
« En temps normal, nous n’avons pas besoin d’énormément de bande passante pour réaliser ces opérations. Et, en 2016, quand nous avons virtualisé tous nos serveurs sous VMware, nous avions choisi une infrastructure de stockage en conséquence. À savoir une baie NetApp de 48 disques SAS à 10 000 tr/min sur chacun de nos deux sites. »
« Sur le travail courant, cette solution fonctionnait bien. Mais dès que nous avons commencé à devoir gérer des opérations exceptionnelles, à lancer des batchs sur nos bases de données, ou à recevoir de trop fortes requêtes de nos clients, les performances s’écroulaient », se souvient Emmanuel Helfenstein. Et il chiffre précisément le plafond à partir duquel la baie NetApp ne répondait plus : 7000 IOPS, à peine. « Je pense que les disques n’étaient pas en cause ; le responsable était le processeur de la baie, trop faible. »
Dans un premier temps, l’équipe IT tente de couper les services de haut niveau : elle bloque le processus de déduplication, puis la compression des données. Elle gagne quelques maigres IOPS. « Au bout d’un moment, nous nous sommes rendu compte que ce matériel ne ferait pas de miracle. Il serait tout autant inutile d’essayer de lui rajouter des tiroirs de disques… »
En 2018, Emmanuel Helfenstein et ses deux collaborateurs « souffrent ». N’y tenant plus, ils appellent les fournisseurs pour trouver une alternative : NetApp, Pure Storage, Dell EMC qui leur propose déjà de basculer sur une infrastructure hyperconvergée VxRail, puis Nutanix dont un collaborateur avait déjà entendu parler.
Nutanix pour le prix et sa console globale
« Le premier élément qui nous a sauté aux yeux est que Nutanix offrait les mêmes fonctions de calcul que l’offre VxRail de Dell EMC, mais coûtait le même prix que les solutions de NetApp et Pure Storage, alors que celles-ci étaient dépourvues de la partie serveur », se souvient Emmanuel Helfenstein.
Il y a une explication : toutes ces solutions comprennent des processeurs. Chez NetApp et Pure Storage, ils ne servent qu’à exécuter les fonctions de stockage. Sur VxRail, il est possible de les utiliser pour exécuter en plus des machines virtuelles, mais moyennant le coût supplémentaire d’une licence VMware ESXi. Chez Nutanix, AHV, l’équivalent maison de l’hyperviseur ESXi, est fourni gratuitement.
« Le coût de cette licence VMware était de 50 000 € la première année pour gérer 16 cœurs et déployer deux consoles vCenter, plus 20 000 € par an de maintenance. C’est cette économie-là que nous réalisions si nous choisissions l’offre Nutanix. »
L’intérêt de cumuler l’exécution des machines virtuelles et le stockage sur une seule machine va par ailleurs au-delà de la simple économie que Vialink pourrait réaliser en n’ayant plus à acheter des serveurs pour accompagner ses baies de disques : « Quand vous êtes une équipe réduite, vous n’avez pas envie de manipuler 50 consoles. Nutanix réunit toutes les opérations dans une seule console », constate Emmanuel Helfenstein.
Et de détailler : « le logiciel d’administration de Nutanix gère par exemple lui-même les mises à jour des firmwares sur la carte mère, sur les cartes contrôleur, sur les SSD aussi. Et il le fait même de manière transparente, sans que nous ayons à nous en occuper. Auparavant, cela nécessitait des opérations supplémentaires, complexes, à faire sur les serveurs Dell qui accédaient à nos baies NetApp. Nous ne le faisions pas, alors que dans notre domaine d’activité c’est une opération très intéressante pour régler les problèmes de faille de sécurité. »
Une migration transparente
En 2019, Vialink achète donc deux clusters Nutanix. Chacun comprend quatre nœuds Supermicro comprenant 2 sockets, 512 Go de RAM et 38 To de stockage sur 12 SSD de 3,84 To. L’éditeur opte par ailleurs pour deux options : le partage de fichiers en SMB avec d’autres serveurs, ainsi que le chiffrement des données, obligatoire pour les contraintes réglementaires auxquelles est soumis tout prestataire du secteur bancaire.
Chaque cluster est installé dans un datacenter. « Chacun de nos deux datacenters est le PRA de l’autre. C’est-à-dire qu’ils exécutent des applications différentes, mais synchronisent toutes leurs données. Ainsi, nous répartissons la charge quotidienne entre nos deux sites géographiques, mais si l’un venait à tomber en panne, l’autre pourrait reprendre 100 % de la production », explique Emmanuel Helfenstein. La synchronisation des contenus est également assurée par le système de Nutanix. Elle passe par une simple fibre noire en 1 Gbit/s.
Emmanuel HelfensteinResponsable Systèmes & Réseaux, Vialink
Pour migrer les données et les machines virtuelles de l’ancien système vers le nouveau, Vialink a utilisé l’outil Move, également fourni par Nutanix, et qui convertit à la volée des machines virtuelles au format VMware ESXI vers le format AHV. « La migration se fait de manière transparente, les applications continuant de fonctionner durant la copie. Cependant, à un moment donné, il faut bien les arrêter pour les redémarrer sur les nouveaux clusters. C’est pourquoi nous avons effectué ces migrations uniquement le week-end, le soir. »
« Nous avons ainsi migré 300 VMs en trois mois, à raison de 10 VMs très différentes à chaque fois, pour ne pas risquer de bloquer toute une activité s’il y avait eu un problème. »
En l’occurrence, il y a bien eu un problème sur quatre machines virtuelles. « La conversion de nos applications d’un format VMware à AHV ne nous a posé aucun souci, car leurs machines virtuelles fonctionnent sur un système Linux Debian qui comprend tous les pilotes nécessaires pour l’un ou l’autre des clusters. En revanche, nous avions des appliances réseau virtuelles, qui nous avaient été vendues préconfigurées pour notre ancien cluster de serveurs Dell et que nous avons dû adapter à la main au nouveau cluster Nutanix. »
Des clusters qui tiennent la charge et proposent bien plus
Les clusters Nutanix n’étaient pas sitôt installés, qu’Emmanuel Helfenstein scrute avec une certaine appréhension le compteur des IOPS : « 10 000, 20 000… puis 30 000 IOPS. La solution a tenu sans broncher. Nous avons pu tester qu’elle supporterait jusqu’à un million d’IOPS. Nous avons gagné en sérénité », se félicite-t-il !
Autre point de satisfaction, le support. « Nutanix nous a encouragés à appeler son service support au moindre souci. Nous les avons pris au mot, nous ouvrons un petit ticket dès que nous devons faire une mise à jour ou une évolution quelconque des paramétrages. Ils sont excessivement réactifs et nous répondent toujours avec beaucoup de bienveillance. »
Courant 2020, une mise à jour se passe mal, elle fait disparaître l’un des nœuds du cluster du réseau. « Nous avons ouvert un ticket en priorité haute. Une personne de chez Nutanix nous a rapidement contactés par zoom, elle a tapé trois commandes et le système est reparti au bout d’une heure. Cela n’a engendré aucun incident du côté des utilisateurs. »
Pour autant, la console d’administration Prism est suffisamment simple pour que l’équipe soit autonome sur la plupart des incidents. Un jour, le lien de 1 Gbit/s entre les deux datacenters était saturé, empêchant la communication entre les applications de se faire normalement. Une simple intervention sur Prism pour réguler la bande passante liée à la synchronisation des deux clusters a suffi à régler le problème dans la seconde.
Après une année 2020 passée sans aucun autre encombre, Vialink décide en 2021 de migrer aussi l’exécution de ses containers Kubernetes sur Nutanix. « Nutanix propose son orchestrateur Karbon pour le faire. C’est livré en standard, c’est gratuit. Non seulement cela fonctionne tout aussi bien, mais nous avons gagné l’avantage de pouvoir gérer nos containers depuis la même console Prism qui nous sert à administrer tout le reste. Avant, nous devions utiliser une console dédiée à Kubernetes », dit encore Emmanuel Helfenstein qui applaudit toute solution susceptible d’alléger la charge de travail de son équipe.
La charge de travail supplémentaire apportée par ces containers, notamment des applications Java, conduira à une extension de la mémoire des nœuds jusqu’à 768 Go. Notre interlocuteur explique avoir acheté les barrettes mémoire supplémentaires de son côté et les avoir installées lui-même dans les clusters, ce qui ne semble pas poser de problème à Nutanix. Aujourd’hui, les clusters exécutent 600 instances virtuelles.
Administrer les bases de données sans DBA
À propos de simplification de l’administration, l’équipe IT aura une autre bonne surprise. « En 2021, nos développeurs ont demandé que nous supportions les moteurs de base de données MongoDB et Postgres sur nos clusters. Le problème est que nous n’avions pas de DBA [administrateur de bases de données, N.D.R.] dans l’équipe. Nutanix nous a alors proposé de déployer l’option ERA, un outil qui automatise la maintenance des bases de données, qui gère tout seul leur haute disponibilité et qui permet de déployer des copies de test ou de travail en un seul clic. Nous avons ainsi résolu très simplement un problème à la base insoluble. »
Emmanuel HelfensteinResponsable Systèmes & Réseaux, Vialink
Il note toutefois qu’ERA présente l’inconvénient d’avoir une version de retard sur le support des bases de données. « Nous aimons être à niveau, mais dans ce cas, nous devons attendre plusieurs mois que Nutanix valide l’usage des toutes dernières versions de MongoDB et Postgres. Tant pis, nous restons avec une version de retard. »
Vialink a par ailleurs investi dans le logiciel de sauvegarde Hycu, spécialisé dans la protection des clusters Nutanix. Contrairement au reste, celui-ci n’est pas intégré à Prism. Il dispose de sa propre console qui enregistre les sauvegardes sur une baie de stockage objet Caringo de 300 To. « Nutanix propose lui aussi un système de stockage objet, mais nous ne l’avons pas pris, car, s’agissant d’une solution de secours, nous ne voulions pas mettre tous nos œufs dans le même panier. »
À terme, Emmanuel Helfenstein pense investir dans le module optionnel de Nutanix qui lui permettrait de synchroniser les deux clusters en temps réel, le dispositif de base ne copiant les données de l’un à l’autre qu’à intervalles réguliers.