Disaster Recovery : les risques du métier (et comment les évaluer)
La continuité métier - ou BC (Business Continuity) - et la reprise après désastre - ou DR (Disaster Recovery) - sont des disciplines souvent négligées. Apprenez à éviter les pertes susceptibles d'avoir une incidence négative sur votre entreprise.
Elaborer un plan de reprise après désastre efficace nécessite un travail considérable, avant même d'envisager matériel, logiciels ou services. Une entreprise a besoin d'un point de vue détaillé sur les types de risques contre lesquels elle devra se protéger, ainsi que sur l'incidence de ces risques sur son organisation. L'analyse des risques, ou RA (Risk Analysis), et l'analyse de l'incidence métier, ou BIA (Business Impact Analysis), doivent intervenir de concert pour déterminer où focaliser les ressources dans le cadre du processus DR, ainsi que l'ampleur de l'investissement dans la mise en place et le maintien de ces ressources. Cet article explique étape par étape la façon de préparer et de mettre en oeuvre ces importantes analyses.
De l'importance des normes
Avant d'examiner les activités BIA et RA, il est important de s'intéresser aux pratiques et normes professionnelles qui les concernent.
Chacune des normes suivantes apporte une compréhension claire des principes de la gestion des risques, et vous aide à déterminer où et comment utiliser efficacement les techniques de cette discipline (par exemple, la conduite d'une évaluation des risques).
L'ISO (International Organization for Standardization) a publié la norme mondiale de gestion des risques ISO 31000, « ISO 31000 - Management du risque ; principes et lignes directrices ». Cette norme est reconnue comme la mesure de référence dans le domaine de la gestion des risques à l'échelle internationale.
Parallèlement, la norme ISO 31010:2009, « Gestion des risques – Techniques d'évaluation des risques » fournit des directives quant à l'organisation et à la conduite d'une évaluation des risques. Elle vient compléter la norme ISO 31000 en se focalisant sur la manière de préparer une évaluation des risques.
Aux Etats-Unis, en matière de RA, la norme SP 800-30, « Risk Management Guide » du NIST (National Institute of Standards and Technology) est essentielle aux systèmes informatiques. Cette norme déplace l'accent du processus de gestion des risques vers les systèmes et la technologie informatiques. Elle accompagne utilement la norme ISO 31010.
La nouvelle norme mondiale d'analyse de l'incidence métier (actuellement en cours d'approbation) est l'ISO 22317, « Sécurité sociétale -- Systèmes de management de la continuité en affaires -- Lignes directrices pour l'analyse d'impact en affaires ». Il s'agit de la première norme formelle qui s'attaque au processus d'analyse de l'incidence métier (BIA). A l'instar des normes relatives aux risques ci-dessus, cette nouvelle norme définit les principes de la BIA et propose également des bonnes pratiques quant à la préparation et à la conduite de cette activité.
Enfin, le « Business Continuity Institute’s Good Practice Guidelines, édition 2013 » constitue un guide professionnel efficace et pratique pour les activités BIA et RA.
Analyse de l'incidence métier
La BIA (Business Incidence Analysis) identifie l'incidence d'événements disruptifs sur des éléments clés tels que les opérations métier, les performances financières, la réputation, les employés et les chaînes d'approvisionnement, ainsi que les systèmes et les réseaux qui les sous-tendent. L'analyse de l'incidence métier constitue le point de départ de l'identification des risques dans le cadre d'une reprise après désastre. Les résultats de la BIA sont utilisés dans le processus d'évaluation des risques. Le tableau 1 présente la relation entre les événements disruptifs et les facteurs métier dans le cadre d'une BIA ; bien sûr, les pertes et les délais de reprise réels varient d'une entreprise à l'autre.
Recourir à une BIA permet de définir un délai maximal pendant lequel l'entreprise peut survivre sans personnel, processus, technologies et sites physiques. La BIA génère deux éléments de mesure importants. Tout d'abord, le délai de récupération cible, ou RTO (Recovery Time Objective). Il s'agit de la durée maximale pendant laquelle un système peut être immobilisé avant que l'activité n'en souffre. Ensuite, le point de récupération cible, ou RPO (Recovery Point Objective). Il identifie un point dans le temps nécessaire à la récupération des données et correspondant à leur dernière utilisation. Des questionnaires et des entrevues simplifient le processus d'exploration BIA. Vous trouverez ci-dessous des exemples de questions possibles, que vous pourrez adapter à des attributs spécifiques de votre entreprise.
Préparation des questions BIA
Formulez des questions pour aborder les aspects suivants ; au minimum :
- Identification des processus et unités métier qui dépendent de l'informatique
- Valeur financière des processus métier stratégiques
- Dépendances vis-à-vis de services internes
- Dépendances vis-à-vis d'entreprises externes
- Exigences en matière de données
- Délai minimal pour récupérer des données au point de leur dernière utilisation
- Exigences minimales en matière de technologies et de systèmes nécessaires pour conduire l'activité
- Nombre minimal d'employés nécessaires pour conduire l'activité
- Espace de bureau, fournitures, enregistrements vitaux et autres ressources minimales
- Distribution des questions BIA aux membres clés de chaque service de l'entreprise.
Compilation et analyse des données
Analysez les données d'entrevue au moyen d'un outil tel qu'une feuille de calcul formatée. La liste suivante comprend des suggestions pour le titrage des différentes colonnes de la feuille de calcul BIA, et pour ce que doit couvrir chacune d'entre elles.
Nom de l'unité métier — Unité/service spécifique
Employés — Nombre d'employés à plein temps (mais aussi à temps partiel et contractuels) au sein de l'unité métier
Processus parent — Principales activités de l'unité
Niveau de priorité — Valeur numérique de classement qui repose sur le caractère prioritaire/critique
Délai de récupération cible — Fenêtre de temps (par exemple, une heure ou une semaine) dans laquelle un processus clé doit revenir « à la normale » à la suite d'une interruption
Point de récupération cible — Durée qui s'écoule entre les sauvegardes de données, et que votre entreprise peut « tolérer » (par exemple, 15 minutes, une journée)
Dépendance d'un processus parent — Entreprises ou services dont un processus parent a besoin pour fonctionner normalement
Dépendance vis-à-vis d'un processus parent — Entreprises ou services qui dépendent d'un processus parent pour fonctionner normalement
Incidence quantitative — Montant financier associé au processus parent (par exemple, chiffre d'affaires)
Incidence qualitative — Incidence non financière sur l'entreprise (par exemple, perte de réputation)
Personnel nécessaire au délai de récupération — Nombre d'employés nécessaires pour revenir à l'état d'activité « quasi normale » dans une fenêtre de temps spécifique
Stratégie de récupération — Mesures spécifiques qu'un service informatique doit prendre pour revenir à un état d'activité « quasi normale » (par exemple, restaurer une sauvegarde, exécuter des applications depuis un stockage/des serveurs secondaires, récupérer en basculant vers un service en Cloud)
Délai de récupération de la technologie/des services — Systèmes/services informatiques à récupérer dans une fenêtre de temps spécifique
Objectif de l'analyse des risques
Une fois l'analyse de l'incidence des risques terminée, identifiez les processus métier les plus critiques, ainsi que les actifs informatiques nécessaires à leur soutien. L'analyse des risques vous aide à identifier les menaces et les vulnérabilités susceptibles d'interrompre le fonctionnement continu des systèmes et des processus identifiés par la BIA.
La RA implique l'identification des risques, l'évaluation de la probabilité de voir un événement se produire et la définition de la gravité des conséquences de cet événement.
Une fois les processus métier les plus stratégiques identifiés à partir de la BIA, identifiez les menaces en utilisant différentes sources, telles que les enregistrements d'événements disruptifs effectués par l'entreprise, ou encore les données historiques de la météorologie nationale, du ministère de l'intérieur ou de l'énergie.
Regroupement des risques
Une fois les risques et les menaces identifiés, groupez-les par catégorie. Commencez par séparer les origines naturelles et humaines. Dans la catégorie des origines humaines, créez deux sous-catégories : les causes volontaires et les causes accidentelles. Les risques naturels sont généralement considérés comme des « actes divins » dont personne ne peut être tenu pour responsable. Le tableau 2 fournit un exemple de regroupement des risques.
Lancement d'une analyse des risques
Lorsque vous procédez à une RA, commencez par identifier les menaces et les vulnérabilités potentielles à partir des ressources que nous avons mentionnées précédemment. Analysez la probabilité de voir un événement survenir, sa gravité potentielle et les vulnérabilités qui ont une incidence sur la situation. Ensuite, calculez le risque global sous la forme du produit de la probabilité de voir un événement survenir (de 0,0 = improbable à 1,0 = va se produire) par la gravité potentielle (de 0,0 = aucun dommage à 1,0 = destruction totale) par la vulnérabilité (de 0,0 = forte vulnérabilité à 1,0 = protection totale).
Le tableau 3 donne un exemple de cette formule (données échantillonnées).
Dans l'exemple de l'ouragan, la représentation graphique du risque calculé signifie qu'il y a une chance sur quatre de voir se produire un ouragan qui provoquerait des dégâts importants, et ce en fonction de vulnérabilités existantes face aux orages de grande ampleur. A partir du tableau renseigné, vous pouvez identifier les risques et gérer leurs priorités pour prendre des mesures plus avant.
Une fois tous les risques pertinents analysés, identifiez les stratégies à mettre en place pour traiter uniquement les risques les plus élevés ou toutes les catégories de risques. Les stratégies que vous définissez pour minimiser les risques contribueront à élaborer celles de la récupération après désastre, qui serviront elles-mêmes à créer des plans DR.
Cinq activités clés d'une analyse des risques
Les cinq plus importantes actions à effectuer dans le cadre d'une analyse des risques sont les suivantes :
1. Définir l'objectif et la portée de l'analyse des risques, ce qui contribue à déterminer les objectifs de celle-ci.
2. Identifier les fonctions métier susceptibles d'être exposées à un risque, pour déterminer plus avant ce qui justifie la RA en matière de technologie et d'infrastructure.
3. Etablir les risques les plus susceptibles d'affecter les fonctions métier.
4. Spécifier les éléments de mesure des risques à analyser, tels que la probabilité statistique de voir un risque survenir.
5. Déterminer dans quelle mesure utiliser les résultats (associés à des résultats BIA), par exemple, pour identifier les fonctions métier et les actifs informatiques affichant le risque d'interruption le plus élevé.
Les résultats tirés de la BIA identifient, classent par priorité et documentent les processus métier stratégiques exécutés par les différentes unités métier, ainsi que les ressources informatiques nécessaires pour préserver leur fonctionnement.
Paul Kirvan, CISA, FBCI, est auditeur IT et conseiller BC/DR indépendant. Contributeur régulier de SearchDisasterRecovery, il est membre du Conseil du USA Chapter du Business Continuity Institute.