Polytechnique abolit les mécontentements avec « une météo de la DSI »
Sur le site de Paris-Saclay, le moindre incident réseau peut provoquer un déluge de plaintes de la part de 6 000 personnes. Pour éviter ce risque, l’école a poussé la supervision à son paroxysme.
C’est d’abord une question d’image. À l’École Polytechnique, on considère qu’il est stratégique pour les élèves futurs entrepreneurs, pour les enseignants sur Renater, ou encore pour les chercheurs qui sont parfois des prix Nobel, de savoir si tous les outils fonctionnent. Loïc Pasquiet, le responsable des Infrastructures et des télécommunications a donc eu l’idée de mettre en place une « météo de la DSI » consultable par les 6 000 personnes qui travaillent sur le campus.
En l’occurrence, il s’agit d’écrans disposés dans les couloirs, mais aussi accessibles sur l’intranet, qui indiquent sur la carte du site de Paris-Saclay l’état de la connexion Internet, du Wifi et des e-mails dans chacun des bâtiments du site. À terme, la solution devrait même afficher l’état opérationnel des applications.
« L’enjeu est de montrer que le SI est maîtrisé. Nous voulons éviter le problème d’utilisateurs mécontents d’avoir découvert eux-mêmes une panne, de ne pas être informés d’un dysfonctionnement en cours. Ils ne doivent plus appeler le helpdesk pour se plaindre d’un problème, mais juste pour savoir quand il sera résolu », explique Loïc Pasquiet.
Surtout, ce monitoring permanent doit aussi donner aux personnels en charge de la maintenance toutes les informations pertinentes pour être très réactifs.
Restait un problème à résoudre : sur un site comme celui de l’École Polytechnique qui compte plus d’une centaine de bâtiments, mettre en place une telle supervision n’a rien de simple.
L’enfer : devoir refaire toutes les configurations Nagios à chaque mise à jour
Le campus de l’École Polytechnique compte 10 000 ports Ethernet et 700 bornes Wifi, chacun géré par une authentification sur les serveurs d’annuaire pour les internes ou via des règles de sécurité pour les invités. Le réseau comprend aussi 2 500 postes de téléphonie IP. Il y a 300 piles de switches disséminées dans 140 locaux techniques pour tout interconnecter. Les cœurs de réseau principaux sont installés dans cinq locaux.
Il faut aussi gérer un réseau GTB – de Gestion Technique des Bâtiments – pour le contrôle informatique des équipements sur courant fort, comme l’éclairage connecté qui s’éteint à distance quand personne n’occupe des locaux, ou la climatisation, dont le pilotage est surtout important dans les laboratoires. « Sur ce réseau, nous connecterons aussi bientôt les panneaux photovoltaïques d’un nouveau bâtiment Bachelor », précise Loïc Pasquiet.
En plus de tout cela, l’équipe de Loïc Pasquiet, qui ne compte que quatre ingénieurs plus un apprenti, doit aussi gérer les serveurs réseaux : DNS, DHCP et autres services d’authentification, qui prennent la forme d’une quarantaine de machines virtuelles exécutées par trois serveurs physiques ESXi, accolés à du stockage virtualisé SANsymphony de DataCore.
« Nous utilisions initialement l’outil Open source Nagios pour la supervision et nous avions pris son extension Nagvis pour cartographier le réseau. Mais ces outils étaient complexes. À chaque fois que nous les mettions à jour, nous devions re-paramétrer tous les connecteurs vers les équipements, à la main », se souvient Loïc Pasquiet.
« La solution pour ne pas avoir à tout re-saisir à chaque fois aurait été d’installer scrupuleusement toutes les mises à jour, au fur et à mesure qu’elles paraissaient. C’était infernal. Il fallait en permanence être dessus. Et, pendant ce temps-là, notre service n’était là que pour éponger les plaintes des utilisateurs. »
En 2017, Loïc Pasquiet en a eu assez. Il s’est résolu à chercher une solution qui lui permettrait enfin de concrétiser sa Météo de la DSI.
Centreon pour la richesse de l’Open source alliée à la facilité d’un logiciel commercial
« Nous avons mené une veille technologique, partagé des informations avec la communauté enseignement-recherche. Nous avons analysé des solutions commerciales plus ou moins étoffées. Parmi celles-ci, Centreon avait à la fois un esprit Open source et packagé », raconte Loïc Pasquiet.
En l’occurrence, il trouve dans Centreon deux avantages que n’ont pas les autres offres de supervision réseau évaluées. D’une part, il y a un modèle financier intéressant, car la solution est basée sur une plateforme de collecte open source. D’autre part, Centreon s’accompagne de connecteurs « Plugin Packs », sous licences, qui permettent de superviser nativement tous les fabricants de matériels réseau. Ceux-ci reconnaissent 400 environnements dès l’installation et ils conservent leur configuration à chaque mise à jour.
En option, Centreon dispose d’une extension de cartographie : Centreon MAP. Celle-ci propose plusieurs types de visualisation, avec différents niveaux de granularité selon le public visé. Surtout, il existe une fonction GeoViews qui permet d’intégrer simplement les indicateurs sur une carte du site et l’intégrer à un portail web, diffusable sur des écrans de télé. Exactement comme l’imaginait Loïc Pasquiet pour son projet de météo de la DSI.
La solution est opérationnelle au printemps 2018, après deux mois et demi de tests et de configurations. Elle supervise en permanence 3 000 services, depuis un serveur central de collecte et deux « pollers » ; ce sont des répliques du serveur de collecte, mais placées chacune à un autre endroit du réseau, afin d’être au plus proche de toutes les métriques à récupérer.
« Nous ne supervisons pas les terminaux, ni l’état des bornes wifi. Nous supervisons les serveurs réseau, ainsi que les serveurs applicatifs des laboratoires et de l’école. Nous monitorons leur charge CPU, leur espace mémoire, leur espace disque et, à certains endroits le nombre d’utilisateurs (sur un firewall en particulier), ou le nombre de requêtes par seconde (sur nos DNS par exemple) », explique Loïc Pasquiet.
Éliminer la plus longue étape de la maintenance : la recherche de panne
Ces informations sont retranscrites au premier chef sur un « cockpit de supervision », à savoir un grand écran dans le bureau des ingénieurs. « Ce cockpit nous rend plus réactifs. Avant, pour résoudre une panne, nous devions en chercher la cause en corrélant des journaux d’événements, ce qui nous prenait entre 30 minutes et une demi-journée. Désormais, cette étape n’existe plus. Un voyant nous indique immédiatement l’existence d’un problème et où il se situe. Nous gagnons in fine du temps pour prévenir les bonnes personnes responsables du bon dépannage », se félicite-t-il.
Et d’expliquer que cette recherche de panne était la partie la plus pénalisante de la maintenance. Sans elle, un problème d’équipement défaillant est désormais résolu dans les plus brefs délais, l’École Polytechnique ayant sur site des matériels de secours.
Cela dit, les défaillances matérielles sont finalement assez rares. Le réseau d’écrans qui affiche dans les couloirs la météo de la DSI sert pour l’essentiel à informer des incidents liés à des opérations de maintenance. La magie de la solution de Centreon est qu’elle liste aussi des opérations de maintenance dont l’équipe en charge du réseau n’était pas forcément informée, car elles sont effectuées par des utilisateurs eux-mêmes. Par exemple quand des chercheurs ou des enseignants interviennent de leur propre chef sur leurs équipements.
Cette météo est encore plus détaillée sur les deux grandes télés dans le bureau du helpdesk, en charge du support niveau 1, afin que les personnels aient le détail de ce qui se passe. « Désormais, ils répondent à leurs interlocuteurs qu’ils sont parfaitement au courant de la panne les concernant. Ils peuvent en expliquer les causes et se prononcer sur les délais de résolution », se réjouit Loïc Pasquiet. Et d’expliquer que le helpdesk est passé d’un bureau des plaintes à un centre de renseignement convivial.
« Le système est si satisfaisant que nous livrons désormais une brique de supervision avec chaque nouveau bâtiment », ajoute-t-il.
Demain, une météo des applications
A présent, Loïc Pasquiet envisage de déployer courant 2020 une autre extension de Centreon : le module BAM (Business Activity Monitoring). Il sert à présenter des indicateurs liés, non plus à l’infrastructure, mais aux applications.
« Aujourd’hui, nous ne voyons pas le bon fonctionnement d’une application en elle-même mais celui de la succession de serveurs qui la motorisent. L’intérêt de Centreon BAM sera de monitorer pour les utilisateurs 30 à 40 applications liées à l’enseignement », dit-il. Il précise que les applications de recherche seront monitorées dans un second temps car elles sont plus complexes à analyser, notamment à cause des clusters de machines dont elles dépendent.
« Notre but au niveau de la DSI est de travailler avec toutes les équipes de développement des métiers, ce qui n’était pas possible avant car nous étions là pour éponger les plaintes de pannes. Aujourd’hui nous pouvons au contraire les aider à mettre plus facilement des modules en service et nous aimerions qu’ils puissent créer des applications métier à partir de nos métriques », conclut Loïc Pasquiet.