Dropbox renforce son infrastructure
A l’issue d’une panne qui a temporairement rendu son service indisponible, Dropbox a pris ses dispositions pour améliorer la robustesse de son infrastructure.
Apprendre de ses erreurs. C’est ainsi que Dropbox semble procéder. En fin de semaine passée, une opération de maintenance à priori banale a provoqué une indisponibilité temporaire du service de stockage en ligne. Dans un billet de blog, Akhil Gupta, responsable de l’infrastructure de Dropbox explique que tout est parti d’une maintenance programmée visant à mettre à niveau le système d’exploitation de certaines machines : « au cours de ce processus, le script de mise à niveau vérifie qu’il n’y a pas de données actives sur la machine avant d’installer le nouveau système d’exploitation. Un bug subtile dans le script a causé la réinstallation d’un petit nombre de machines actives. Hélas, certaines paires maître/réplique [de bases de données] ont été affectées, provoquant la chute du site. » Et d’assurer qu’aucune donnée d’utilisateur n’a été perdue au passage.
Akhil Gupta indique que, suite à cet incident, ses équipes « ont ajouté une couche supplémentaire de vérifications qui impose aux machines de vérifier localement leur état avant d’exécuter des commandes » envoyées à distance, par les chargés d’exploitation : « cela permet aux machines qui s’auto-identifient comme exécutant des processus critiques de refuser des opérations potentiellement destructrices ». En outre, les équipes chargées de l’infrastructure de Dropbox ont « développé un outil qui parallélise le fait de rejouer les logs binaires » afin d’accélérer la restauration « de vastes backups MySQL ». Un outil que le service de stockage prévoit de verser à l’Open Source « afin que d’autres puissent bénéficier de ce que nous avons appris ».