Panne dans le Cloud : Amazon livre des détails et promet de faire mieux
Amazon Web Services montre une nouvelle fois que la relation client / fournisseur dans le Cloud passe également par la communication et la transparence.
Amazon Web Services montre une nouvelle fois que la relation client / fournisseur dans le Cloud passe également par la communication et la transparence. Le spécialiste de l'infrastructure dans le nuage, comme en mai dernier à la suite d'une panne majeure, a tenu à s'expliquer sur les raisons de l'interruption de ses services intervenue le 7 août sur son datacenter de Dublin. Et promet d'améliorer ses services. A la clé : redondance, load balancing et meilleure communication.
Dans un long document, le groupe revient sur les épisodes qui ont marqué la panne et la restauration des services. On y apprend notamment que l'origine de la panne, initialement attribuée à un transformateur électrique de l'un des fournisseurs du groupe, alors frappé par la foudre, serait autre. Ce même fournisseur mènerait actuellement une enquête.
Surtout, le groupe promet d'optimiser son infrastructure afin d'éviter que pareil incident ne se reproduise. Il explique, notamment, travailler à la redondance en termes d'alimentation et compte mieux isoler les PLC (Programmable Logic Controllers, ou contrôleurs à programmation logicielle - en charge notamment de synchroniser les transformateurs). Autre promesse, celle d'améliorer les fonctions de load-balancing sur EC2, dont les API ont enregistré une surcharge pendant l'incident, et ainsi que la latence dans les services. Amazon assure également travailler à réduire les temps de récupération de ses serveurs EBS (Elastic Block Store) qui, lors des procédures de restauration, avait connu une erreur logicielle - au niveau de la solution de gestion des snapshots, compliquant un peu plus le retour à la normale des services.
Enfin, AWS promet d'être plus réactif dans le cas d'incidents en accélérant les retours des équipes de support, de détailler davantage les ressources impactées, et surtout compte bien améliorer l'aide technique apportée à ses clients, citant une nouvelle fois la restauration des snapshots, une tâche visiblement plus difficile que prévue pour certains clients du groupe.