Vasyl - stock.adobe.com

Panne des numéros d’urgence : la chronologie qui accable Orange

Selon le rapport présenté le 22 juillet par le gouvernement, Orange a commis trois fautes : il a mal configuré ses équipements, l’a fait sans prendre de précautions et a été le dernier à réagir.

Orange a bien commis trois fautes dans le cadre de la panne des numéros d’urgence survenue le 2 juin 2021 dans l’après-midi. C’est ce que révèle le rapport présenté ce 22 juillet par le gouvernement et établi au terme d’une enquête minutieuse menée par l’ANSSI, en collaboration avec le Commissariat aux communications électroniques de défense, l’Inspection générale de l’administration (IGA), l’Inspection générale des affaires sociales (IGAS) et le Conseil général de l’économie (CGE). Cette panne a empêché 11 800 appels aux urgences d’aboutir. Elle serait directement responsable du décès de six personnes.

« Il y a eu une panne sur les six call servers d’Orange qui font la passerelle entre les appels VoIP des particuliers [depuis leurs mobiles ou via des lignes fixes reliées à des boxes Internet, N.D.R.] et les lignes RTC que les services d’urgence utilisent toujours », explique Étienne Berthier, le coordinateur du rapport pour l’ANSSI.

« Cette panne est la conséquence de commandes de mise à jour entrées de manière hasardeuse. Elles ont provoqué un bug jusque-là inconnu dans les équipements. La défaillance s’est emballée, car Orange a entré les commandes sur les six serveurs en même temps, ce qu’il n’aurait jamais dû faire. Si Orange s’est manifestement efforcé de conduire les réparations, nous observons que l’opérateur a manqué à son devoir d’information à l’attention des autorités. »

Il précise : « les lignes RTC sont les lignes téléphoniques historiques, qui doivent être éteintes d’ici à 2030. La panne n’a pas concerné seulement les numéros d’urgence, mais toutes les lignes RTC gérées par Orange et, en l’occurrence, leur liaison au reste du réseau téléphonique actuel par ces six call servers. D’autres lignes RTC subsistent chez SFR. Elles n’ont pas été impactées par la panne. »

« Le Gouvernement saisira l’Arcep d’ici à la fin du mois de juillet […] afin que […] toutes les mesures appropriées pour assurer l’intégrité de ses réseaux et garantir la continuité des services fournis soient bien prises. »
Cédric OSecrétaire d’État en charge du numérique

Le Secrétaire d’État en charge du numérique, Cédric O, présent au début de la conférence, s’est montré particulièrement remonté contre Orange : « le Gouvernement saisira l’Arcep [le gendarme des télécoms, N.D.R.] d’ici à la fin du mois de juillet en lui transmettant l’ensemble des éléments de cet audit, afin que l’autorité indépendante puisse apprécier le bon respect par l’opérateur des obligations réglementaires en vigueur. Et, en particulier, que toutes les mesures appropriées pour assurer l’intégrité de ses réseaux et garantir la continuité des services fournis soient bien prises » a-t-il martelé, en évoquant une évolution de l’encadrement législatif des opérateurs.

Humiliation ultime, la présentation de ce rapport s’est faite en conférence téléphonique avec la presse, sur une plateforme qui, selon le message automatisé du répondeur, appartenait à SFR.

D’ici à la rentrée, le gouvernement définira un nouveau plan d’action concernant le risque qu’une telle panne se reproduise. Il s’agira notamment de mettre en œuvre une supervision spécifique aux appels d’urgence, une structure de collaboration entre opérateurs en cas de crise, et une batterie de tests à chaque introduction de nouvelles technologies ou nouvelles méthodes. Aucune de ces mesures n’existait jusqu’alors.

Par ailleurs, des exercices de crise seront dorénavant organisés tous les ans pour vérifier la résilience des systèmes d’acheminement des réseaux d’urgence. La première simulation en grandeur nature devrait avoir lieu avant la fin de cette année.

La chronologie de la panne

Dans son rapport sur la panne d’Orange, l’ANSSI s’est attachée à analyser tous les logs des équipements concernés pour comprendre, minute par minute, comment l’accident est arrivé et comment il a évolué dans les heures qui ont suivi.

Le mercredi 2 juin 2021 à 16h00, les équipes techniques d’Orange se lancent dans une opération de routine qui consiste à augmenter la capacité d’acheminement des appels en VoIP. Cette manipulation suppose d’activer de nouveaux équipements en VoIP et de reconfigurer les call servers, des passerelles vers le réseau RTC historique, pour qu’ils prennent en compte les nouvelles routes. La subtilité est qu’il faut relancer le service de routage sur ces call serveurs, c’est-à-dire arrêter ce service et le redémarrer en lui indiquant les nouvelles routes à emprunter.

Il est 16h44, quand les techniciens relancent le service sur le premier call server. Ils commettent une erreur : la route qu’ils indiquent initialement n’est pas valide. Comme il s’agit de la seule définie dans l’appareil à ce moment-là, les appels VoIP entrants s’accumulent dans la mémoire de la machine, en attendant qu’une nouvelle route, valide, soit entrée.

Et c’est là qu’ils commettent leur seconde erreur : plutôt que d’enchaîner la saisie des autres routes sur le même appareil, les techniciens prennent le parti de les entrer une à une, sur tous les appareils à la fois. En une poignée de secondes, les six call-servers se retrouvent dans le même état de dysfonctionnement, à emmagasiner dans leur mémoire des appels VoIP entrants qui ne trouvent pas de porte de sortie vers le réseau RTC, toujours à cause de cette première route mal saisie.

Le temps que les techniciens reviennent au premier call-server pour saisir une seconde route, les dés sont jetés : la mémoire de l’appareil est déjà saturée d’appels d’entrants. Le firmware de la machine décide dans ce cas de redémarrer pour purger sa RAM. Mais celle-ci se remplit aussitôt de nouveaux appels, qui cherchent toujours la mauvaise porte de sortie. En une fraction de seconde, les autres appareils l’imitent. Les techniciens n’ont plus la main. Les call servers redémarrent sans cesse. Le rythme est infernal. Il n’est plus possible de lancer de commandes.

Le rapport parle d’un bug au niveau du firmware de ces équipements. Leur constructeur, Italtel, assure avoir entretemps corrigé le problème. « Il est délicat de demander à Orange de changer de fournisseur. Quasiment plus personne ne fabrique encore de tels équipements RTC », note Étienne Berthier.

Dès 16h45, les SAMU du Nord et de l’Île-de-France observent une chute brutale des appels entrants. En l’espace de quinze minutes, ils alertent les préfectures. Les brigades de pompiers confirment l’information. On s’organise pour trouver une parade. On appelle Orange. À Paris, les autorités ne parviendront pas à joindre l’opérateur avant 18h35.

Du côté d’Orange, les équipes en place appellent à l’aide à 17h00. D’autres techniciens interviennent pour tenter de restaurer le service à 17h20. Rien n’y fait.

Simultanément, les SAMU se coordonnent en cellule de crise nationale. Dans le Nord, on met en place avec SFR des numéros à 10 chiffres. À 17h36, le président de SAMU - Urgences de France alerte la Présidence de la République. À 17h40, le ministère de l’Intérieur appelle tous les opérateurs, pour comprendre, pour avoir un rapport de la situation.

À 17h47, une alerte interne circule chez Orange : « il y aurait beaucoup de plaintes sur les services, notamment concernant les numéros courts des urgences. » Puis, alors que toutes les préfectures de France s’activent pour sortir de la crise, nouvelle note interne chez Orange, à 18h06, qui remarque : « les services d’urgence d’Île-de-France, du Grand Est et du département du Nord sont injoignables. »

À 18h35, le service d’assistance d’Orange se décide enfin à prendre l’appel de la préfecture de Paris. Il concède qu’il y a un problème de maintenance, mais on promet qu’il sera réparé dans les deux heures. En somme, le préposé de garde au call center récite exactement ce que tous les opérateurs répondent à leurs clients qui appellent lors d’une coupure de service. Comme d’habitude, il n’en sait rien.

À 18h41, la direction d’Orange se fend d’un e-mail au ministère de l’Intérieur pour l’informer de l’existence d’un problème. Puis, quatre minutes plus tard, elle se décide à mettre en place une cellule de crise. Celle-ci débouchera sur la publication d’un tweet informatif, à 19h40. Puis, sur un appel officiel du directeur technique d’Orange au directeur de cabinet du Secrétaire d’État en charge du numérique, à 20h00.

Pendant ce temps, les techniciens de l’opérateur ne s’en sortent pas. À 18h50, soit plus de deux heures après le début de la panne, ils ont appelé l’équipementier Italtel. Il a fallu attendre encore 24 minutes avant que celui-ci ouvre un ticket. Des deux côtés, les techniciens s’acharnent depuis à faire démarrer proprement les call servers. Ils essaieront en vain jusqu’à 22h00, heure à laquelle ils savent enfin comment se sortir du cycle infernal des redémarrages. Une procédure permettant de faire revenir les call servers à l’état dans lequel ils étaient avant la reconfiguration malheureuse de 16h44 est lancée à 22h40. Elle durera jusqu’à 2 heures du matin. Le trafic est censé revenir à la normale vers 5h25, ce 3 juin.

Orange défaillant

« Bien qu’on puisse s’attendre à ce qu’Orange dispose de mécanismes de surveillance interne, lui permettant d’avoir une vision plus précise et plus réactive de son réseau, la mise en place d’un dispositif de gestion de crise adapté à l’ampleur de celle-ci a été plus lente que celui de l’État. En particulier, Orange a mis près d’une heure à prendre conscience que la panne touchait en particulier les services d’urgence, deux heures pour en informer les autorités et près de trois heures pour mettre en place un dispositif adapté », note le rapport.

Il ajoute que la procédure pour forcer les call servers à charger les anciens paramètres présents sur le serveur de configuration était indiquée dans le manuel des équipements. Elle aurait également été rappelée par Italtel lorsque celui-ci a été contacté. Pourtant, « cette procédure n’a été utilisée qu’en dernier recours », notent les auteurs du rapport.

Et d’accabler encore plus Orange : « au cours de la journée du 3 juin, des incidents similaires à ceux du 2 juin ont été observés, notamment par des SAMU et préfectures. Orange considère que ces alertes ne sont pas liées aux opérations qu’il a réalisées ni à une nouvelle panne (…) Néanmoins, l’analyse des journaux d’événements de certains call servers montre que plusieurs redémarrages de leurs modules ont eu lieu la journée du 3 juin et que le soutien d’Italtel a de nouveau été demandé par Orange au cours de la matinée du 3 juin. »

« Or, selon les constats de la mission, après 3 heures du matin, le 3 juin, les configurations auraient dû retrouver leur état nominal, à l’exception des modules éteints pour maintenance. Les actions observées dans les journaux d’événements ne permettent ni d’expliquer ces nouvelles perturbations ni d’expliquer pourquoi elles se sont arrêtées. Orange n’a pas été en mesure de fournir des explications techniques satisfaisantes sur ces perturbations. Plus important encore, Orange indique qu’Italtel, lors de son intervention du matin du 3 juin, n’en a pas fourni non plus », ajoute le rapport.

Le rapport conclut en remarquant que les call servers sont censés être des équipements redondés, mais que la modification simultanée des configurations de ces équipements a annulé de fait cette redondance. Pire, des opérations de maintenance aussi sensibles auraient dû être lancées sur des instances de test, et pas directement sur les équipements de production. Selon les auteurs du rapport, Orange ne s’était de toute façon pas équipé d’une plateforme de préproduction susceptible de simuler une telle montée en charge. L’opérateur aurait pourtant dû en avoir une après qu’un incident similaire soit survenu en mai 2018.

« Il existe un manque de compréhension fine du produit d’Italtel par Orange, en partie dû au fait que cette technologie est vieillissante et qu’il est donc difficile de se former. Les explications fournies par Orange lors de certains entretiens ont pu se révéler inexactes. Des formations constructeurs plus fréquentes doivent être organisées au profit des exploitants et experts d’Orange sur cette technologie », recommande enfin le rapport.

Pour approfondir sur Administration de réseaux