Panne de Facebook : la faute à une mauvaise configuration des bases de données

Nouvelle panne spectaculaire - car très visible - pour un service du Web 2.0. Cette fois, c'est Facebook qui a été piégé par une modification apparemment anodine de sa base de données. Sauf que ce changement a déclenché une réaction d'un système chargé de veiller à l'intégrité des données.

par

Reynald Fléchaux, Journaliste

Publié le: 27 sept. 2010

Jeudi dernier, le réseau social Facebook a été inaccessible pendant environ 2 heures et demie. D'abord pointé du doigt, le protocole DNS ne semble pas être à l'origine de la panne. Selon un billet de blog du directeur de l'ingénierie logicielle maison, la panne résulte d'une mauvaise configuration d'une base de données, générant un pic de trafic en provenance d'un système automatique chargé de réparer les valeurs erronées dans le cache. "Nous avons effectué un changement de valeur sur la configuration dans la copie persistante, cette valeur a alors été interprétée comme non valide", explique cet ingénieur. Autrement dit, le système chargé de corriger les valeurs du cache a été trompé, pensant ne pas disposer des bonnes données dans le cache.

Un cluster de base de données submergé

Dès lors, les événements se sont enchaînés. "Chaque client a identifié cette valeur considérée comme non valide et a tenté de la réparer (via le système automatique chargé de corriger les mauvaises valeurs de configuration transmises par le cache, NDLR). Comme la réparation implique d'effectuer une requête sur un cluster de bases de données, ce cluster a été rapidement submergé par des centaines de milliers de requêtes par seconde." Un phénomène qui a obligé Facebook à désactiver le cluster, rendant le site inaccessible. Le réseau social précise qu'il a également désactivé le système automatique de correction d'erreurs et qu'il cherche une nouvelle solution technique pour que des pannes de cette nature ne se reproduisent plus.

Pour le blog Infrastructure 2.0, tenu par la société spécialiste des appliances DNS Infoblox, il s'agit là d'une nouvelle manifestation du plus gros problème que connaissent les équipes IT dans le monde : la gestion des changements. "Quand elles gèrent des changements réseau, les organisations doivent se montrer proactives dans leurs tests, leurs validations et leurs supervisions des infrastructures réseau critiques (routeurs, commutateurs, firewalls, etc.) et des services Web (applications, bases de données, serveurs)", écrit le blog. Un façon de dire qu'il y a peut-être matière à réflexion de ce côté pour les équipes techniques de Facebook. Et le blog de rappeler que, selon les chiffres communément admis par les analystes, deux-tiers des problèmes de performances réseau sont liés à des changements mal maîtrisés.

Panne de Facebook : la faute à une mauvaise configuration des bases de données

Pour approfondir sur Administration de systèmes

Panne Cloudflare : l’explication de ses causes et de ses remèdes

Stockage : Hammerspace accélère l’IA avec les SSD des serveurs de calcul

Apache Cassandra 4.0 débarque sous le signe de l'observabilité

Crowdstrike s’engage à son tour sur la voie du XDR