Avec AOS 5.17, Nutanix propose la reprise d’activité sans payer plus
L’hyperviseur AHV, livré gratuitement dans le dernier système d’hyperconvergence, synchronise un site de production et son site de secours aussi bien que les hyperviseurs payants.
Nutanix enrichit désormais son hyperviseur par défaut, AHV, de fonctions de très haut niveau, afin que les clients de sa solution d’hyperconvergence ne soient plus contraints d’acheter des options. La dernière édition 5.17 de son système AOS – qui sort ces jours-ci – apporte les premières briques d’un dispositif de reprise d’activité après sinistre, n’ayant besoin ni de VMware ESXi ni de Microsoft Hyper-V pour s’exécuter dans les plus brefs délais.
Dans la pratique, une reprise d’activité la plus courte possible permet aux applications de basculer dans le monde des services hautement disponibles. Les bases de données qui enregistrent des transactions commerciales, le VDI qui présente aux utilisateurs des postes distants avec une application métier et, plus généralement, toute machine virtuelle qui doit répondre à des requêtes utilisateur résisteraient ainsi mieux aux pannes, sans qu’il soit besoin de payer des licences en plus.
« Nous avons vocation à rendre notre propre hyperviseur AHV isofonctionnel avec ESXi et Hyper-V d’ici à la fin de l’année. L’enjeu n’est pas de concurrencer ces hyperviseurs, que nous continuerons de supporter. L’enjeu est d’apporter une solution d’hyperconvergence encore plus compétitive, qui sera la seule à avoir toutes les fonctions possibles sans qu’il soit besoin de payer pour des licences VMware ou Microsoft », lance Christophe Bardy, le Solution Strategist Europe de Nutanix (et accessoirement ex-membre fondateur du MagIT.fr).
L’enjeu de la parité fonctionnelle
Christophe BardySolution Strategist Europe, Nutanix
« En apportant à AHV la parité fonctionnelle avec les autres hyperviseurs, nous répondons à trois demandes. La première est celle des entreprises qui n’avaient déployé AHV que sur un segment de leur datacenter, mais qui désirent aujourd’hui uniformiser leurs infrastructures hyperconvergées – si possible autour de la technologie la moins chère. La seconde demande est celle des clients actuels d’AOS qui ne sont pas pleinement satisfaits de l’hyperviseur qu’ils utilisent et qui attendaient une alternative complète pour le quitter sereinement. La dernière demande, enfin, est celle des prospects qui cherchent un fournisseur de solutions hyperconvergées très compétitif », ajoute Christophe Bardy.
Outre le prix, il existe au moins une autre raison de rester sur l’hyperviseur AHV de base : n’utiliser qu’une seule interface d’administration. Il s’agit en l’occurrence de Prism, une console que Nutanix présente comme la plus simple à utiliser.
AOS (Acropolis OS) est un système d’hyperconvergence, qui transforme un cluster de nœuds physiques en un pool de ressources processeur et de stockage pour les distribuer à des machines virtuelles. Le fonctionnement en cluster et la gestion du stockage étant les parties les plus significatives de son produit, Nutanix livre AOS avec son hyperviseur AHV (Acropolis Hypervisor), mais a toujours supporté de fonctionner par-dessus une solution concurrente, vendue en option.
Selon les informations que LeMagIT a pu obtenir, 50 % des installations d’AOS ont ainsi été vendues avec VMware ESXi, 3 % avec Microsoft Hyper-V et les 47 % restants se contentent d’AHV. Ajoutons que s’il revient à Nutanix d’avoir créé de toutes pièces le concept des infrastructures hyperconvergées, les derniers chiffres de ventes semblent indiquer qu’il est aujourd’hui le numéro 2 du marché, derrière VMware qui propose désormais sa propre solution en partenariat avec Dell EMC.
Redémarrer avec les données en cours de traitement lors de la panne
Dans le détail, AOS 5.17 apporte plus exactement la fonction de réplication synchrone entre deux clusters AHV. Jusqu’ici, toutes les écritures effectuées dans les images disques des machines virtuelles étaient recopiées vers un cluster de secours après coup. Il en résultait qu’en cas de panne sur le site de production, on redémarrait sur le site de secours avec des données généralement plus vieilles d’une heure. À présent, chaque écriture se fait en même temps sur le site de production et sur celui de secours, de sorte que les machines virtuelles se relancent avec les informations qu’elles étaient en train de traiter au moment de l’incident.
« Attention. Dans ce mode de fonctionnement, il faut que le site de secours soit atteignable en moins de 5 millisecondes, c’est-à-dire qu’il est relativement proche du site de production et qu’une connexion musclée les relie. Dans le cas contraire, la synchronisation ralentirait la production », prévient Christophe Bardy.
Toutefois, il fait remarquer que ces conditions sont généralement remplies en France, voire en Europe, contrairement à l’Amérique du Nord. « Les territoires nationaux étant ici bien moins étendus que celui des USA, les entreprises européennes ont souvent accès à des liaisons compatibles avec la réplication synchrone, alors que peu de compagnies américaines l’envisagent. Nous pensons donc que c’est en Europe que nous aurons les projets les plus intéressants en matière de PRA et de haute disponibilité autour de AHV. »
Nutanix a cependant prévu une parade pour les liaisons dont la latence ne descend pas en dessous des 5 millisecondes : le « Near-Sync ». Dans ce mode, la synchronisation n’est plus permanente, elle est effectuée à intervalles réguliers : le cluster de production agrège localement toutes les écritures effectuées pendant 20 secondes, puis envoie une image de ces écritures – un snapshot – au site de secours. Dès lors, la latence n’est plus un problème et, à 20 secondes près, le site de secours prend quasiment la suite du site de production tombé en panne.
Il est à noter que cette nouvelle fonction Near-Sync est prise en charge par Xi Leap, le service en cloud de Nutanix justement destiné à faire office de site de secours. Ainsi, alors que Xi Leap hébergeait auparavant des données plus vieilles, au mieux, d’une à dix minutes, il sera dans les prochains jours en mesure de relancer des VMs avec des données qui datent de 20 secondes avant la panne.
Synchroniser depuis l’hyperviseur pour une meilleure fiabilité
Selon Nutanix, il était nécessaire d’implémenter ce fonctionnement en miroir dans l’hyperviseur, car, outre les données écrites sur volumes virtuels, la synchronisation prend également en compte les paramètres des machines virtuelles : leur adresse IP, leurs dépendances, etc. Ces paramètres sont importants pour savoir comment relancer les machines virtuelles après un incident, sans corrompre les données.
Christophe BardySolution Strategist Europe, Nutanix
« Le scénario le plus courant est d’avoir deux sites de production actif-actif, où chacun exécute ses propres machines virtuelles et reçoit en permanence une copie des VMs que l’autre exécute. En cas d’incident, les entreprises ne réactivent généralement pas 100 % des VMs sur le second site, mais juste celles qui sont essentielles, afin de ne pas le surcharger. Dans ces conditions, il est primordial de vérifier que les applications qui se relancent ont bien accès à tous les services dont elles ont besoin », indique Christophe Bardy.
Pour que la fiabilité soit maximale, ces vérifications sont effectuées par les machines virtuelles elles-mêmes. AOS y installe des scripts écrits selon les scénarios de reprise d’activité envisagés et ordonne aux VMs de les exécuter quand elles se relancent, pour être sûr que tout est en ordre de leur point de vue. Si Nutanix n’avait pas modifié l’hyperviseur AHV en conséquence, la vérification aurait été moins fiable, car elle serait passée par une observation extérieure.
Lors de la prochaine mise à jour d’AOS, la synchronisation sera étendue avec la possibilité de migrer vers un cluster AOS de configuration différente. Et dans la mise à jour suivante, Nutanix devrait intégrer un système plus automatique qui relance tout seul les bonnes machines virtuelles sur le site de secours sans attendre qu’un opérateur appuie sur l’icône pour le faire.
Enfin, notons que cette version 5.17 apporte également le support des processeurs Epyc d’AMD et s’accompagne d’un nouvel outil Foundation-Central, qui sert à migrer des serveurs vers un cluster AOS à distance.