Sergey Nivens - Fotolia
Self-service Analytics : comment améliorer la gouvernance des données
Les citizen data scientists et le self-service analytics sont deux tendances en croissance du fait du manque d'experts. Voici quelques-unes des meilleures pratiques de gestion des données à appliquer pour bien les intégrer en entreprise.
Le self-service analytics a atteint un tournant. Selon les analystes de Gartner, 2020 sera l’année où les citizen data scientists produiront davantage de travaux avancés que les professionnels de l’analytique et de la data science.
Cependant, pour tirer le meilleur parti de cette tendance, les entreprises devront adapter leur gouvernance des données à l’analytique en libre-service. Celles qui cherchent à étendre cette capacité sans mettre en œuvre les mêmes bonnes pratiques de gestion de données se rendront compte que les utilisateurs métiers auront du mal à prendre les bonnes décisions. Les données incohérentes, cachées, inconsistantes, ou pire périmées seront la cause de cet échec. En outre, les organisations s’exposent à des risques importants en matière de confidentialité et de sécurité si elles ouvrent les sources de données sans adopter une gouvernance appropriée.
En savoir plus :
Selon Gartner, le self-service analytics est une forme de pratique BI où les métiers sont encouragés à réaliser des requêtes et générer des rapports eux-mêmes avec un support IT minimum. Les outils et les data models sont simplifiés. Les Citizen Data Scientist sont des utilisateurs métier « qui utilisent des analyses diagnostiques avancées ou des capacités prédictives et prescriptives, mais dont la fonction principale se situe en dehors du domaine des statistiques et de l'analyse ».
Trouver l’équilibre entre qualité et fraîcheur des données
Selon des experts de l’analytique et du data management, elles doivent prendre note des meilleures pratiques de gestion de données suivantes en vue d’éviter les problèmes et de faciliter l’émergence du citizen data scientist.
La qualité des données est au centre de nombreuses tendances analytiques, y compris de celle du self-service analytics. Selon Emily Washington, vice-présidente et directrice générale, gestion de produits chez Infogix, cette composante prendra un rôle clé dans les entreprises en 2020.
« Alors que les sociétés continuent de repousser les limites du stockage et du traitement de données, nous considérons que leur qualité est un critère sous-jacent pour qu’elles puissent en tirer parti en toute confiance », déclare Emily Washington.
Ces dernières ne doivent pas seulement obtenir des données consistantes et propres, mais aussi en temps réel. Un sondage récemment publié par Actian Corp tend à démontrer que 94 % des décisionnaires IT déclarent qu’il est important de recevoir des données actualisées pour alimenter une culture d’entreprise « data driven ». Plus de la moitié d’entre eux admettent qu’ils sont obligés d’utiliser en partie des informations obsolètes.
Par conséquent, les entreprises recherchent des moyens innovants pour pousser les données auprès des métiers. Selon Emily Washington, le traditionnel traitement par lots, durant lequel les données sont envoyées à heure fixe d’un système à un autre, ne répond pas aux besoins actuels des environnements temps réel.
Pour répondre à ces demandes, la plupart d’entre elles se tournent vers des architectures « event driven » pour traiter de gros volumes de données en streaming. Ces organisations s’appuient sur des plateformes de streaming distribuées comme Apache Kafka, ActiveMQ, Apache Pulsar et Amazon Kinesis. Elles cherchent non seulement à aider les citizen data scientists à prendre des décisions plus rapidement, mais aussi à étendre les cas d’usage analytiques.
« Certains des nouveaux cas d’usage les plus populaires, comme les plateformes customer 360 et les offres temps réel hyper-personnalisées, ne fonctionnent tout simplement pas avec des données périmées », affirme Jack Mardack, vice-président chez Actian. « Cela brouille les lignes entre les bases de données et les data warehouses traditionnellement séparés et impose de nouvelles exigences comme le temps réel qui implique de repenser l’infrastructure de gestion de données ».
Le fait est que les données en temps réel deviennent un passif plutôt qu'un actif si elles ne sont pas validées à la vitesse prévue.
Mettre l'accent sur la gouvernance des données
Établir une solide gouvernance des données pour le self-service analytics doit alors devenir une priorité pour résoudre les problèmes de qualités. Il est également crucial de s’assurer que l’activité des analystes citoyens ne se transforment pas en cauchemars de sécurité et de conformité.
« La gouvernance devait être une priorité pour l’habilitation et la gestion des citizen data scientists », déclare Jen Underwood, ex directrice senior de DataRobot. « Pour les entreprises des secteurs hautement réglementés - les services financiers, produits pharmaceutiques ou biotechnologiques - les solutions efficaces de gestion de données atténuant les risques et améliorant l’efficacité ne sont tout simplement pas négociables », ajoute-t-elle.
La bonne nouvelle, c’est que les politiques d’accès aux données pour ces citoyens de l’analytique n’ont pas besoin d’être révolutionnaire. Elles peuvent s’inspirer de règles similaires que les entreprises ont déployées pour les pratiques de self-service BI.
L’astuce consiste à adapter les politiques établies aux nouveaux cas d’usage, par exemple en tenant compte de la manière dont les pratiques d’accès à la donnée dans le cadre du machine learning à la lumière des sur lois sur la protection des données comme le RGPD ou le California Consumer Privacy Act (CCPA).
Améliorer la découverte et la préparation des données grâce à l’analytique augmentée
Les entreprises se tournent de plus en plus vers l’analytique augmentée et ses capacités de machine learning. L’objectif est d’automatiser la manière dont elles découvrent et préparent les données.
D’ailleurs, la data discovery est une pièce cruciale de ce puzzle de la gestion des données lorsqu’il s’agit de tirer le meilleur parti du self-service analytics.
« Reconnue comme un ciment important pour les logiciels d'entreprise, la fourniture d'un catalogue commun pour la recherche, l'approvisionnement, la sécurisation et la compréhension des données et d'autres objets est importante pour les clients », affirme Todd Wright responsable senior marketing produit des solutions de gestion et de confidentialité des données, chez SAS. « De plus, la découverte d’indicateurs grâce à l’application d’analytiques avancées permet d’automatiser les tâches de gestion des données usuelles et de trouver de la valeur dans celles qui étaient auparavant trop difficiles à discerner ».
Dans un même temps, l’analytique augmentée et intelligente peut aider à réduire efficacement les efforts nécessaires au nettoyage des jeux de données. Selon Krzysztof Suriowiecki, gérant associé chez Hexe Data, l’extraction, la transformation et le chargement (ETL) accaparent 80 % du temps des data analysts lors de la data preparation. Les technologies d’automatisation permettent de réduire le temps nécessaire à l’exécution de ces tâches. Todd Wright abonde en ce sens en déclarant que cette approche de la gouvernance des données en direction du self-service analytics permettra de débloquer les informations dont les sociétés ont besoin pour que les analystes citoyens aient les moyens d’agir.
« Pour étendre les activités de manipulation des données à un public plus large, le développement d'une transformation avancée des données à l'aide de l'IA pour automatiser le nettoyage et le blending permettra de donner plus de pouvoir aux utilisateurs non-techniques », assure Todd Wright.