L’administration française veut transformer les contrôles grâce à l’IA
Les lauréats de l’appel à manifestation d’intérêt « intelligence artificielle » ont présenté les résultats de leurs expérimentations. Certains projets IA seront maintenus dans les années à venir.
La semaine de l’innovation publique s’est terminée le 29 novembre. Cet événement organisé par la Direction interministérielle de la transformation publique (DTIP) mettait en avant les efforts de transformation numérique du gouvernement et de ses agences. L’occasion de présenter les résultats des premiers projets IA de l’Administration issus de l’appel à manifestation d’intérêt « intelligence artificielle » (une initiative portée par Mounir Mahjoubi en juin 2018). Six d’entre eux sur un total de 52 ont été sélectionnés, développés et expérimentés pendant 10 mois.
Ceux-ci devaient se baser sur des corpus de données ouvertes publiées sur data.gouv.fr, sur des informations externes, mais publiques et des dossiers internes. Ensuite, les agences, le département, le ministère et le centre hospitalier universitaire impliqués ont appliqué des analyses sémantiques, de la reconnaissance visuelle, de la détection d’anomalies et des modèles prédictifs pour en tirer de la valeur. L’objectif principal ? Améliorer les phases de contrôle et faciliter le travail des agents sur le terrain.
L’Autorité de sûreté nucléaire veut renforcer la qualité des contrôles des centrales nucléaires
Parmi ces six solutions, trois d’entre elles reposaient sur l’analyse sémantique. La plus marquante se nomme SIANCE (Système d’intelligence artificielle pour le nucléaire, son contrôle et son évaluation). Ce projet émane de l’Autorité de sûreté nucléaire (ASN) en association avec le consultant IT Starclay. Ensemble, ils ont conçu un outil d’analyse basé sur le traitement du langage naturel (ou NLP) pour repérer des signaux faibles et des indicateurs de tendances dans les établissements utilisant des installations nucléaires. L’objectif est d’obtenir des alertes et de détecter les établissements régulièrement en infraction.
Cela représente 58 centrales EDF et 85 000 sites et laboratoires, surveillés par 350 agents. Pour ce faire, l’ASN a annoté 4 000 lettres de suite sur 22 000 au total. Il s’agit du document remis au directeur d’un établissement après une inspection. Ce document relate les remarques et les éventuelles modifications à opérer.
Starclay s’est chargé de la réalisation technique. Le cabinet a conçu un outil d’annotation sur le corpus de texte, après conversion des PDF en format .txt, à l’aide d’Apache Tika. Les PDF images ont été eux transformés à l’aide du moteur de reconnaissance optique open source Tesseract sur Python.
« Les outils d’annotation du marché ne répondaient pas à notre besoin », explique un porte-parole de StarClay. « Prodigy ou Rat permet de spécifier deux ou trois concepts différents, nous avions des listes métiers comprenant plus de 150 concepts hiérarchisés, codés en JSON », ajoute-il. Le système d’annotation a été développé en React, une bibliothèque issue de JavaScript.
Concrètement, il s’agit d’une interface graphique avec laquelle 300 agents, la moitié des effectifs de l’ASN, ont labellisé les documents. Ces informations, (le terme saisi par l’utilisateur, le courrier spécifique, la position de départ et de fin du terme) ont été stockées dans une base de données PostgreSQL avant d’être injectées dans des modèles algorithmiques de reconnaissance d’entités nommées (NER) à l’aide de SpaCy, une bibliothèque spécialisée dans le NLP associée à Python. Au final, Starclay a mis au point 400 modèles NER. « Nous avons un très bon rappel, mais notre précision était de 50 % (0,5). C’est parce que nous arrivons à prédire des termes qui n’avaient pas été annotés par les agents ». La moyenne de ces éléments augmente la précision à 80 - 90 % (0,8-0,9).
Après avoir fait fonctionner les modèles, les équipes ont pu faire des prédictions sur les 18 000 lettres de suite restante. Starclay a ensuite développé une interface graphique en REACT, puis a indexé les résultats des modèles dans un moteur de recherche ElasticSearch. La bibliothèque Graph permet de trouver les relations. L’utilisateur y tape les mots clés « concepts » et retrouve les lettres associées à un score de pertinence.
« Nous travaillons sur une visualisation graphique afin d’obtenir des tendances interannuelles en utilisant sûrement Kibana d’Elastic », explique le consultant. Le projet a duré huit mois. L’ASN a payé de sa poche pour les deux mois restants après la fin de l’appel d’offre. La préparation des données a duré deux mois, trois mois d’annotation et trois mois d’apprentissage pour les modèles et restitution dans l’interface graphique. Tout le code est public et est déposé sur le Git d’Etalab, le service de partage de données publiques dirigé par le premier ministre.
« Nous allons continuer à alimenter l’algorithme avec des données », assure Damien Clément, chef de projets à l’ASN. « Nous espérons capitaliser sur ce projet pour en faire d’autres, celui-ci a suscité l’intérêt de plusieurs autorités étrangères », ajoute-t-il. SIANCE ne devrait donc pas être délaissé sur un Git, mais bien servir à l’autorité en question.
Prédire la pollution diffuse, le projet ambitieux de l’Agence française pour la biodiversité
Le projet le plus ambitieux est sans aucun doute porté par l’Agence française pour la biodiversité (AFB). Elle a conçu « un système d’appui à l’élaboration de plan de contrôle ». L’AFB réalise 20 000 contrôles concernant les pollutions diffuses en Ille et Vilaine et dans le Morbihan, deux départements bretons.
Or, seulement 11 % d’entre eux donnent lieu à un constat et 25 % une infraction. La Bretagne est pourtant victime de sa politique agraire, de l’utilisation des engrais et des pesticides. L’AFB veut donc renforcer les contrôles et aider les agents à sélectionner les exploitations agricoles et les établissements à contrôler. Deuxième point, elle souhaite s’assurer que les normes en termes de couverture des sols soient respectées en hiver. En effet, les agriculteurs ont obligation de laisser en jachère un certain pourcentage de leurs terres. Ils doivent tout de même s’assurer que la flore reprenne ses droits pour éviter les ruissellements.
Pour ce faire, l’agence a mis au point un outil mêlant Big Data, visualisation de données et algorithmes. L’AFB utilise plusieurs jeux de données : les relevés météorologiques, un historique de près de 10 ans de contrôles, des informations physico-chimiques, des rapports des pollutions des rivières et des cours d’eau, des images satellites, etc. Au total, la solution traite 93 variables.
Ces données structurées au sein de la base PostegreSQL ont permis au prestataire, Quantmetry, de réaliser cette plateforme web. Celle-ci représente la carte de la Bretagne quadrillée par une zone d’un rayon de 5 kilomètres chacune. Cela figure la distance couverte par un membre de la police de l’environnement lors d’une journée de contrôle.
Un premier algorithme a pour but de prédire les zones à risque, celles qu’il faudra contrôler au cours d’une année. Le modèle comprend 10 facteurs afin de déterminer s’il faut se rendre ou non à un endroit donné. Indicateur de valeurs extrêmes de nitrate, d’ammonium, de nitrite, de phosphore, pourcentage de surfaces en pente, ou encore nombre de têtes de bétail sont quelques-uns des paramètres pris en compte. Résultat, la prédiction du risque d’infraction est améliorée par 3.
Le second algorithme sera testé au mois de décembre afin de déterminer la qualité de la couverture végétale en Ille et Vilaine et dans le Morbihan. Il repose principalement sur les données satellites, fournies par le programme Sentinel. Le modèle de reconnaissance d’image analyse la hauteur de la végétation et sa densité afin de déterminer les risques de pollution.
Des biais à appréhender
Après 10 mois de gestation et 6 mois de développement, le « système » sera étendu au reste de la Bretagne en 2020 et au bassin versant (une large zone allant de la Loire Atlantique jusqu’au centre de la France) par la suite.
Alexandre LiccardiChargé de mission innovation numérique et Big Data, AFB
Bien accueilli par le personnel, cet outil doit encore faire ses preuves. « Il faut que les métiers s’approprient ces outils, sinon les projets seront abandonnés », assure Alexandre Liccardi, chargé de mission innovation numérique et Big Data, AFB. Pour l’instant, une partie des agents bretons bénéficient de la solution. Elle n’est pas exempt de biais. « Nous pouvons déterminer la [trop grande] sévérité d’un contrôle à partir de la solution de data visualisation », explique le statisticien.
Ce même problème concerne le projet de la Direction générale de l’alimentation. Elle tente de déterminer les prochains restaurants à contrôler en se basant sur les commentaires postés sur TripAdvisor. Les responsables ont conscience des effets que peuvent avoir les faux commentaires sur les résultats du modèle à l’apprentissage supervisé.
Que ce soit au sein d’une agence gouvernementale ou dans une entreprise, les questions autour de la transformation digitale et l’intégration de l’IA sont peu différents.