Microsoft Azure victime d'une panne géante pendant le Week-End
Le cloud Windows Azure de Microsoft a connu une panne de grande ampleur ce week-end suite à l'expiration d'un certificat numérique clé pour le bon fonctionnement de ses services de stockage. Un incident qui a déclenché des défaillances en cascade des autres service d'Azure et qui n'a été finalement résolu qu'après 12 longues heures...
Windows Azure, le cloud de Microsoft, a connu un week-end chaotique suite à l’indisponibilité des services de stockage du cloud de Microsoft. Pour la seconde fois en un an, c’est un problème de certificat numérique qui a déclenché la panne. Cette fois-ci, le géant de Redmond a laissé expirer un certificat de sécurité clé pour le bon fonctionnement de son infrastructure en nuage, un « oubli » qui a rendu inaccessible l’ensemble des fonctions de stockage objet accessibles via HTTPS. Cette inaccessibilité a eu des conséquences en cascades sur un grand nombre d’autres services du nuage Azure dépendants du stockage, dont les services d’encodage et de streaming de médias, certains services de compute, les services de contrôle d’accès, les services Web ou les services de bus d’entreprise.
Pour un simple oubli de renouvellement de certificat, c’est une bonne partie de l’infrastructure Azure qui a tout simplement disparu du nuage. L’incident a été détecté par Microsoft à 21h44 heure française, le vendredi 22 février et il a fallu près de 3h30 à la société pour commencer à restaurer le service sur les premiers clusters de stockage. Au total, 12 heures auront été nécessaires à Microsoft pour restaurer la quasi-totalité de ses services de stockage et avec eux, la disponibilité des autres services de son cloud.
Microsoft et la malédiction des certificats numériques...
On se rappelle qu’en février 2012, Azure s’était aussi effondré suite à un problème d’expiration et de renouvellement de certificats lié au fait que 2012 était une année bissextile. Les certificats automatiquement générés par Azure le 29 février 2012 avaient en effet une date d’expiration au 29 février 2013, une date inexistante. Un problème qui avait entraîné l’effondrement des VM créées ce jour-là et, en cascade, celui des serveurs les hébergeant. Il avait alors fallu à Microsoft près de 10 heures pour commencer les opérations de redémarrage et plus de 16 heures pour remettre l’essentiel d’Azure sur pied.
L'éditeur de Redmond promet d'indemniser ses clients
Dans un billet de blog, Steven Martin, le directeur général de Windows Azure, a confirmé que la firme de Redmond indemniserait ses clients en leur accordant des crédits gratuits sur la consommation de futurs services Azure, selon les termes du SLA Azure. Ces crédits apparaîtront sur une future facture. Un post-mortem complet de l’incident sera également publié par Microsoft sur le blog Windows Azure.