Narong Jongsirikul - Fotolia
Comment les grands du datacenter se protègent des défaillances électriques
Après la panne électrique qui a frappé le datacenter d'OVH à Strasbourg en novembre, LeMagIT a cherché a en savoir plus sur les bonnes pratiques des grands du datacenter en matière d'approvisionnement et de sécurité électrique. Seul Equinix a accepté de nous répondre. L'occasion de faire le point sur le sujet avec Christian Balzer, son directeur des opérations.
Après la défaillance électrique majeure qui a frappé le datacenter strasbourgeois d’OVH à la fin 2017, LeMagIT a cherché à en savoir plus sur la façon dont les grands acteurs de l’hébergement gèrent leur approvisionnement en énergie en France et tentent de se protéger au mieux d’éventuelles défaillances. Nous cherchions notamment à connaître quelles sont les meilleures pratiques actuelles pour maximiser la disponibilité de l’alimentation énergétique des serveurs au sein d’un datacenter.
Pour tenter d’en savoir plus, nous avons sollicité plusieurs acteurs du secteur, dont bien évidemment OVH, mais aussi Interxion et Equinix. Ce dernier est le seul qui a accepté de nous répondre, par la voix de Christian Balzer, son directeur des opérations, France, Italie et Suisse.
La sécurisation de l’alimentation électrique commence bien évidemment par elle de l’approvisionnement, explique Christian Balzer. « La bonne pratique pour les grands acteurs du datacenter est de profiter de la configuration Enedis la plus sécurisée, qui est celle de la double dérivation ».
Opter pour le mécanisme d'approvisionnement le plus robuste
Ce mécanisme consiste à raccorder le datacenter à un poste source via deux câbles dont l’un dit de travail et l’autre de secours. Cette configuration est aujourd’hui l’offre standard d’Enedis pour les consommateurs critiques. Elle est un recul par rapport à ce qui existait encore, il y a quelques années. EDF proposait alors une configuration encore plus sécurisée, dans laquelle le câble de travail et le câble de secours étaient raccordés à des postes source différents ».
Pour mémoire, un poste source a pour but d’assurer l'alimentation en électricité d’un secteur. Il se situe à l’intersection du réseau très haute tension (225 000 à 63000 volts) et du réseau moyenne tension (20 000 volts) et fournit les transformateurs qui assurent l’abaissement de la tension de l'électricité. Le poste source assure aussi la protection du réseau contre les incidents.
Comme l’indique Christian Balzer, l’ancienne configuration qui n’est plus proposée par Enedis avait un grand avantage. Elle protégeait les clients contre une défaillance majeure sur un poste source, même si de tels incidents sont très rares. Mais elle posait un problème majeur à Enedis, celui d’immobiliser potentiellement 50% de la capacité d’un poste source dans l’attente improbable d’une panne.
« L’explosion de demandes de puissance pas toujours très raisonnables de la part de beaucoup d’acteurs du datacenter a contraint Enedis à mener une réflexion de fond sur les datacenters et la configuration double sur deux postes sources a disparu », explique Christian Balzer. Il faut dire que la planification et la réalisation d’un poste source peuvent nécessiter entre cinq et dix ans, puisque l’on parle d’infrastructures industrielles et donc d’investissements importants pour EDF et Enedis.
Il est à noter que pour les infrastructures les plus critiques, Enedis propose toujours la possibilité de disposer de plusieurs postes de livraison dans le datacenter, desservis par des câbles séparés [les postes de livraison assurent l’entrée électrique dans le bâtiment et effectuent la transformation de la moyenne tension en basse tension, N.D.L.R]. L’opérateur de datacenter peut ainsi se protéger à la fois d’une rupture de câble, mais aussi d’une éventuelle défaillance d’un poste de livraison.
Se protéger des défaillances d'alimentation
Une fois la question de l’approvisionnement gérée, les opérateurs de datacenters doivent ensuite se protéger contre une éventuelle rupture de cet approvisionnement. En France, ce type d’incident se compte sur les doigts d’une main chaque année explique Christian Balzer, mais c’est justement ce à quoi les datacenters doivent se préparer.
« Dans une configuration de type double dérivation , si le câble principal vient à être endommagé ou s‘il y a un problème, le disjoncteur s'ouvre côté Enedis. Mais la bascule vers le câble de secours nécessite une intervention manuelle. Pour des raisons de sécurité, les disjoncteurs ne sont pas fermés sur les deux câbles. Il n'y a pas de mode automatique. Le réapprovisionnement par le câble de secours demande donc un certain temps. C’est pour cela que les datacenters doivent s’armer contre les défaillances d’approvisionnement ».
Tous les datacenters sont ainsi équipés de groupes de générateurs électriques (généralement au diesel) ainsi que d’onduleurs avec des batteries massives. Ces derniers doivent notamment assurer l’alimentation électrique du site en attendant le démarrage des groupes électrogènes.
Comme l’indique le directeur des opérations d’Equinix, les systèmes électriques du datacenter sur la partie courant fort sont conçus pour assurer la continuité de service quand tout marche bien. Mais ils sont aussi malheureusement autant de potentiels de pannes et de dysfonctionnement. « Le fait qu'un automate n'arrive pas à transmettre l'ordre de démarrage d'un groupe électrogène de secours fait partie de ce sur quoi l'effort de conception doit porter pour qu'un tel problème ne se traduise pas par l'arrêt d'un datacenter ». Selon lui, c’est l’un des points sur lesquels il y a eu d’importantes évolutions de conceptions au cours des dix dernières années. « Il y a eu une période où l’on avait tendance à déployer pas mal d'automates dans les datacenters pour piloter des séquences de basculement. On en est revenu, car on a fait l’expérience que ces automates sont une source importante de dysfonctionnements ».
D’après Christian Balzer, Equinix est revenu à des basiques en faisant moins appel à des automates ou pas de la même manière : « On avait des conceptions avec des centrales de groupes électrogènes, c’est-à-dire plusieurs groupes fonctionnant comme une seule entité avec des redondances N+1 ou N+2. À l'évidence, si en amont un automate dysfonctionne, c'est l'ensemble de la centrale qui ne démarre pas et donc l’ensemble du datacenter qui se retrouve privé d’énergie ».
Désormais, l’opérateur de datacenter est passé à une conception dite « block redondance », qui au lieu d’avoir des ensembles aussi imposants réunit un groupe électrogène, un système ondulé et un transformateur. « Tout cela fonctionne comme un système intégré qui alimente une voie d’alimentation pour les serveurs clients. De la même façon, on a un autre bloc qui traite l’autre voie électrique. Et chacun de ces blocs a son propre automate. Même si un automate dysfonctionne - et statistiquement cela arrive, comme cela s’est passé dans le cas de l’incident d’OVH - , l’impact du dysfonctionnement est mitigé puisque l’on a toujours une voie d’alimentation qui est approvisionnée ».
Une autre bonne pratique est de découper le datacenter en tranches ce qui permet de compartimenter le risque mais a aussi une logique économique. Comme le rappelle Christian Balzer, on ne construit plus un datacenter en bloc, comme il y a vingt ans. L’approche est beaucoup plus modulaire: « Désormais, on construit au fil de l’eau, par salle, ce qui permet aussi de lisser l’investissement que représente la construction d’un datacenter ».
Mettre en place des architectures IT résilientes
Cette compartimentation croissante du risque n’est toutefois pas une garantie absolue et il peut arriver qu’en dépit de ces précautions, une salle ou plusieurs salles d’un datacenter subissent une défaillance. C’est là que les architectes SI dans les entreprises ont aussi leur rôle à jouer.
Comme l’explique Christian Balzer, « nos clients s’organisent pour que sur nos plates-formes, ils ne mettent pas tous leurs œufs dans le même panier. Ils peuvent organiser la répartition de leurs actifs, organiser la mise en miroir de leurs infrastructures entre plusieurs salles, voire plusieurs datacenters. Il y a des vrais choix de conception à effectuer pour limiter l’impact d’un incident en termes de volume ». Il est ainsi souhaitable pour les productions les plus critiques d’avoir des infrastructures indépendantes réparties sur des sous-ensembles de datacenter .
À cette fin, Christian Balzer indique qu’Equinix est transparent avec ses clients sur ses infrastructures et sur les risques existants afin que ceux-ci puissent prendre les mesures nécessaires en matière de placement de leurs éléments de système d’information. Cette transparence est nécessaire, explique-t-il car « de notre point de vue, un client dont la production n’est pas coupée est un client satisfait ». Il note toutefois que toutes les entreprises ne se préoccupent guère du sujet tant qu’elles n’ont pas fait face à un incident, mais que, par ailleurs, certains clients sont très proactifs sur ces sujets et « mènent des audits très fouillés sur nos infrastructures avant de faire leur choix ».
Terminons par une note positive : s’il est important de concevoir des infrastructures à forte tolérance aux pannes, la France a l’avantage d’offrir un service électrique qui reste de grande qualité. Comme l’explique Christian Balzer, Equinix enregistre environ 2 pannes d’alimentation par an sur ses datacenters - et encore de très faible durée -, alors qu’en Italie, à Milan, l’opérateur doit faire face à plusieurs interruptions par mois. Le risque d’interruption est donc faible, même si la prudence veut que l’on fasse tout ce qui est possible pour s’en prémunir…