Offshore Leaks : une leçon de traitement des données centrée sur l’utilisateur
Comment rendre accessible et surtout exploitable de vastes volumes de données complexes ? C’est une question qui touche de nombreuses entreprises mais à laquelle le consortium international de journalistes d’investigation (ICIJ) à l’origine des célèbres Offshore Leaks sur la fiscalité internationale a du impérativement répondre.
Comment rendre accessible et surtout exploitable de vastes volumes de données complexes? C’est une question qui touche de nombreuses entreprises mais à laquelle le consortium international de journalistes d’investigation (ICIJ) à l’origine des célèbres Offshore Leaks sur la fiscalité internationale a du impérativement répondre.
Dans un billet de blog, Giannina Segnini, responsable de l’unité d’investigation du quotidien La Naciòn, au Costa Rica, explique comment l’ICIJ a du innover pour composer avec «des millions de données dans des formats différents. Les bases de données relationnelles s’étendaient sur plus de 320 tables et n’étaient pas pourvues de dictionnaires expliquant leurs relations ». Durant trois mois, un ingénieur en informatique a travaillé à l’analyse des données pour retrouver les relations entre tables, enregistrements et champs. Mais ce n’était qu’un point de départ : les données ont du être nettoyées, notamment en apportant des corrections à des erreurs de frappe ou en supprimant des doublons. L’équipe de La Naciòn s’est notamment appuyée sur l’ETL de Talend, Open Studio for Data Integration, en conjonction avec une bibliothèque Java développée par le MIT pour le projet Vicino et spécialisée dans la recherche et le regroupement d’éléments proches.
Parallèlement, le designer Web du quotidien a travaillé à une maquette d’interface utilisateur visant à permettre à des journalistes d’accéder aux données, de les consulter et de travailler dessus. Il s’est appuyé pour cela sur l’outil Web collaboratif MockFlow, «parfaitement adapté à un projet international comme celui-ci, dont les membres, issus de plus de cinq pays, ont participé à la définition de l’interface ». C’est encore un ingénieur de l’équipe de Giannina Segnini qui s’est chargé du développement de l’application qui affiche les noeuds et les liens. Des fonctionnalités graphiques spécifiques ont été développées pour éviter de saturer l’affichage autour de noeuds disposant de liens trop importants. Le volet visualisation des données a pour l'essentiel été construit avec la bibliothèque sigma.js.