Panne : Skype pointe son client Windows

Lars Rabbe, le directeur technique de Skype, prend la plume et dans un long billet raconte les raisons de la panne qui a touché le service de ToIP. Serveurs de messagerie instantanée en surcharge, clients Windows bogués, supernodes asphyxiés : il raconte comment des incidents en cascade ont fini par priver des millions d’utilisateurs du service. Sans toutefois détailler les raisons premières.

Skype joue la carte de la transparence. Après les 24 heures de pannes qui ont mis à terre le service de ToIP entre le 22 et le 23 décembre dernier, le directeur technique, Lars Rabbe, a décidé d’expliquer les raisons de cette interruption de service. A la lecture de son (long) billet de blog, si l’on comprend bien les pannes en cascade qui ont rendu le service inaccessible, les raisons premières du dysfonctionnement restent floues.

Selon les explications de Lars Rabbe, un bogue dans la version 5.0.0152 du client Skype pour Windows serait un des principaux responsables de l’inaccessibilité du service. En tant que dernier maillon d’un chaîne Peer-to-Peer, ce logiciel aurait éteint Skype pour plusieurs millions de personnes.

Tout commence mercredi 22 décembre avec une surcharge des “supernodes” du réseau Skype (une grappe de nœuds qui joue le rôle de “directory” d’utilisateurs), gérant la messagerie instantanée en mode offline. Ce qui provoque un premier hoquet du service et génére des réponses en différé qui, selon Lars Rabbe, ont entrainé le plantage de clients Windows - la version 5.0.0152 donc. Ces applicatifs bogués étant dans l’impossibilité de traiter ce type de réponse. L’impact est considérable car cette version, toujours selon Lars Rabbe, compte pour quelque 50 % des clients installés, du moins la semaine dernière. Environ un utilisateur sur quatre se serait alors retrouvé aveugle après ce crash, précise-t-il.

Les supernodes à genoux

A ce moment, les utilisateurs reposant sur les dernières versions Windows de Skype (5.0.0.156 ), les plus anciennes (4.0), Skype pour Mac et iPhone, notamment, ne sont pas affectées.

S’ensuit une réaction en chaine, raconte le responsable technique, qui explique que “ces clients [victimes de plantage, NDLR] incluaient 25-30 % des supernodes publics alors disponibles, qui ont eux aussi planté, par voie de conséquence”, du fait de la nature de l’architecture sur laquelle repose Skype. Résultat final, les ”supernodes” encore actifs se sont retrouvés, à leur tour, en surcharge pour enfin priver les autres utilisateurs du service. Si les supernodes ont une capacité de tolérance de pannes, explique-t-il, les utilisateurs des clients Windows bogués ont de nouveau essayé - et à maintes reprises - de relancer leur application. Surchargeant un peu plus les serveurs restants, dépassant alors leur seuil limite.

L'enchaînement éclairci, l'origine reste mystérieuse

Si jusque-là, les explications de Lars Rabbe semblent tenir le route, il reste toutefois un vraie zone d’ombre. Qu’est-ce qui a provoqué la surcharge des supernodes initiaux, la phénomène initial qui a entrainé les réponses différées vers les clients Windows “malades” ? La réponse ne fait aujourd’hui pas partie des explications de Skype. Transparence, ou demie transparence ?

Après avoir promis un crédit de 30 minutes aux victimes, l’éditeur de l’application de ToIP la plus populaire a une nouvelle fois tenté de rassurer ses utilisateurs en expliquant qu’il modifierait ses processus. D’abord en garantissant un service de mises à jour - comme il est désormais de coutume dans la plupart des applicatifs -, puis en modifiant ses procédures de tests et de débogage. Le groupe entend également renforcer l’ensemble de son infrastructure et compte multiplier les investissements dans ce domaine en 2011, glisse Lars Rabbe. Pour éviter d'éventuelles nouvelles surcharges des "supernodes" aux conséquences parfois dévastatrices ?

Pour approfondir sur Editeurs