Une nouvelle panne de Gmail affecte des millions d’utilisateurs
Encore. Gmail, le service de messagerie électronique de Google, vient une nouvelle fois de tomber en rade. Cette fois-ci, ce mardi 1er septembre, une « majorité » des dizaines de millions d’utilisateurs du service auraient été affectés, pendant près de deux heures. Mais Google se veut rassurant et affirme non seulement avoir isolé l’origine de la panne, mais aussi que cela ne devrait plus se reproduire.
Pour la énième fois, Gmail est devenu inaccessible pour ses utilisateurs, ce mardi 1er septembre. Vers 13h, heure de la côte ouest des Etats-Unis, David Besbris, ingénieur en chef du service de messagerie électronique de Google, a décidé de communiquer, sur le blog de ce même service : « nous savons que beaucoup d’entre vous ont des difficultés à accéder à Gmail en ce moment – nous aussi, et nous ressentons la même souffrance. » Et d’évoquer, déjà, un « incident mineur » à l’origine de la panne... mais qui touche trop de monde pour ne pas lui accorder une communication spécifique. Un peu moins d’une heure et demie plus tard, David Bresbis indiquait que ses équipes avaient corrigé le problème, le service devant progressivement revenir à la normale.
Une panne en cascade
C’est dans un second billet, le même jour, en fin d’après-midi, que le vice-président de l’ingénierie de Gmail, et « Tzar de la fiabilité du site », Ben Treynor, apporte excuses et éclaircissements : « ce matin (heure du Pacifique), nous avons déconnecté une petite partie des serveurs de Gmail pour une opération de mise à jour routinière. En soi, ce n’est pas un problème ; nous faisons ça tout le temps et l’interface Web de Gmail s’exécute depuis plusieurs endroits différents ; le trafic est juste routé vers d’autres endroit lorsque l’un deux est déconnecté. » Le souci, c’est que « nous avons légèrement sous-estimé la charge avec quelques changements récents (ironiquement, certains ont été conçus pour améliorer la disponibilité du service) effectués sur les routeurs [d’équilibrage des requêtes Web]. Vers midi et demi, quelques uns de ces routeurs ont été surchargés et ont demandé au reste du système à être déchargés – arrêtez de nous envoyer du trafic, nous sommes trop lents ! » La suite est simple : le schéma s’est reproduit de proche en proche, se propageant en cascade au reste de l’infrastructure… Les interfaces Web de Gmail ont cessé d’être accessibles. Mais, Ben Treynor insiste : les accès IMAP et POP ainsi que le routage des courriels n’ont pas cessé de fonctionner normalement. Pour le reste, le "Tzar" local de la fiabilité indique que certaines mesures ont déjà été prises pour éviter que ne retombe le frontal Web de Gmail : augmentation de la capacité des routeurs de répartition de la charge, etc. Reste à savoir si les derniers propos de Ben Treynor convaincront : « nous nous engageons à faire en sorte que des incidents tels que ceux de ce jour soient notables par leur rareté. »
Une liste de défaillances déjà longue
Car force est de constater que Gmail n’a pas été avare de défaillances, ces derniers mois. Mi-mai, le service a été inaccessible pendant environ 4 heures. Mais là, seulement « près de 14 % de nos utilisateurs ont ressenti des ralentissements, voire des interruptions de service », indiquait alors Google. Même chose en mars, et en février. Là, la panne avait été imputée aux serveurs européens de Gmail.
Alors que Google a présenté Wave en mai dernier, le successeur de Gmail qui consolide les services de collaboration et de communication de l’éditeur de services dans un ensemble façon Zimbra, ces pannes à répétition soulèvent, une fois de plus, et amèrement, la question de la fiabilité du SaaS. Comme nous le relevions déjà en août 2008, alors que Google et ses Apps connaissaient leurs premières pannes de grande ampleur, l’éditeur promet à ses utilisateurs payants une disponibilité de 99,9 % sur n’importe quel mois calendaire. Soit une indisponibilité maximale d’environ 43 minutes – un seuil dépassé ce mardi 1er septembre par Gmail.
Au-delà, Google offre des extensions de contrat gratuites aux clients lésés : trois jours, par exemple, si la disponibilité effective des services est comprise entre 99 et 99,9 %. Avec ce type d’engagement, le risque, notamment financier, pour Google est faible. Mais le geste compte. A l’heure où tous les grands noms de l’industrie se positionnent sur le Cloud Computing, l’image de fiabilité et de réactivité n’a pas de prix. Sans doute trouve-t-on là l’une des raisons à la promptitude et à la transparence, au moins apparente, dont Google a fait preuve pour communiquer sur l’incident dont son service Gmail vient d’être victime. Contrairement aux fois précédentes.