Gestion des incidents IT : quand l’automatisation et le monitoring accompagnent les admins
Les administrateurs IT n’ont pas le temps ni les ressources pour identifier et résoudre tous les problèmes. L’association dynamique entre monitoring, gestion des incidents et automatisation peut les aider.
Aucun environnement informatique n'est identique. Les problèmes peuvent aller de la simple panne, - un serveur à court d'espace disque fait qu'une application ne répond plus - , à des problèmes intermittents plus complexes - le système financier fonctionne mal à la fin de chaque mois lorsque le service comptable imprime des factures d’une année.
Si un administrateur, en charge des opérations IT, n’est pas en mesure de prédire tous les problèmes, c’est aussi le cas d’un système automatisé de gestion des incidents.
Systèmes et opérations IT sont difficiles à maintenir. Ils sont difficiles à mettre en œuvre, à gérer et à dépanner. Les environnements changent constamment, et les administrateurs doivent mettre en place une surveillance et une gestion des changements pour les sept couches OSI (Open Systems Interconnection) - huit, si vous incluez les utilisateurs. Chaque environnement est unique et, à son tour, est imparfait.
Où tracer la frontière entre recruter des gourous de l'informatique qui maintiennent et réparent manuellement l'environnement et investir dans des systèmes automatisés de gestion des incidents IT qui signalent les problèmes - et savent même les réparer ? L'automatisation et les connaissances informatiques internes doivent coexister pour maintenir un environnement hautement opérationnel.
Cette ligne de démarcation est un problème que chaque entreprise doit résoudre. Pour obtenir les meilleurs résultats possibles, demandez au personnel IT de s'en remettre aux systèmes de monitoring, plutôt que d'agir comme le technicien de réparation d'urgence. Les humains sont faillibles. Mais il est aussi peu probable que plusieurs membres du personnel aient exactement les mêmes connaissances pour tous les systèmes de l'entreprise.
Les options de gestion des incidents
Un système de gestion des incidents IT correctement configuré utilise des outils de surveillance pour détecter un problème avant qu'un humain ne le fasse. Par exemple, si le lien WAN d'un site distant tombe en panne, il peut passer inaperçu jusqu'à ce qu'un utilisateur final ressente une dégradation de la qualité de service. Cependant, un outil de surveillance, capable de suivre la disponibilité de n'importe quel périphérique - ou même de l’adresse IP du routeur qui fournit la liaison WAN - identifiera bien plus vite cette anomalie. L'équipe IT peut utiliser le système pour déclencher un événement - par exemple envoyer une alerte par e-mail à toute l'équipe. Les experts IT déterminent la cause du problème et communiquent avec les utilisateurs.
Recevoir l’alerte d'un système automatisé et agir en conséquence nécessite moins de connaissances techniques de la part de l'équipe de support que d’avoir à dépanner un problème repéré par un utilisateur - surtout lorsque l’explication du problème par l’utilisateur n'est pas claire.
L’outillage est de plus en plus flexible et puissant. Operations Management Suite de Microsoft Azure se repose par exemple sur des fonctions de base (journalisation centralisée, ainsi que des fonctions avancées, telles que Service Map, qui découvre et construit automatiquement une carte de référence des dépendances des serveurs, des processus et des services tiers).
Les systèmes qui intègrent des outils tels que Service Map, la cartographie des dépendances applicatives et d'autres fonctionnalités permettent de soulager l'expert en interne, qui doit se rappeler de chaque serveur par adresse IP, nom et capacité disque. Au lieu de cela, l’administrateur peut suivre des instructions standard pour configurer le monitoring des incidents et visualiser comment des serveurs et des services spécifiques interagissent.
Les options avancées
Certaines grandes entreprises accordent une grande importance à l'automatisation ; cela est le cas pour leurs systèmes de gestion des incidents IT. La tendance en matière d’automatisation est forte, mais, selon les tâches en question, elle n'a guère de sens pour la gestion des ressources. Dans la gestion des incidents IT, une intervention automatisée avancée peut certes mener à l’auto-remédiation des infrastructures, mais c'est au-delà de la réalité pour la plupart des entreprises. L'automatisation doit commencer par les processus les plus élémentaires et se développer pour rechercher la fluidité. Mais l'on est loin de cette promesse d’automatisation complète.
Une autre façon d'aborder les incidents IT est …de les créer soi-même. Netflix a développé un programme d'ingénierie du chaos, Chaos Monkey, et d'autres outils appelés Simian Army, qui testent la résilience du système en cassant délibérément les processus ou en interrompant les services. Pour les plus conservatrices, les entreprises peuvent expérimenter l'ingénierie du chaos à petites doses ou dans des environnements de staging - plutôt que d’avoir à démonter les systèmes de production.
En fin de compte, les administrateurs en charge des opérations existent pour aider le reste de l'entreprise à faire son travail. Des systèmes automatisés de surveillance et de gestion des incidents IT, rapides à déployer et facilement modifiables, facilitent cette tâche. Le bon outillage fait là la différence.
Si la mise en place de processus de surveillance et de remédiation semble trop lourde, la maintenance ne le deviendra pas d’autant plus en cas de changements du système ; au rythme actuel de l'évolution de l’IT, ce sera un travail continu. Même avec un système de gestion des incidents IT performant et automatisé, les administrateurs ont besoin de comprendre leur environnement. En combinant ces connaissances avec l'automatisation, le dépannage sera moins manuel.