Conseil

7 étapes pour créer son data lake

Peupler un cluster Hadoop de données qui ne sont ni organisées ni gérées correctement risque de nuire à vos projets analytiques. Voici 7 étapes clé qui vous permettrons de mieux utiliser les données de votre data lake.

par

David Loshin, Knowledge Integrity Inc.

Publié le: 07 mars 2018

Le concept du data lake (lac de données) a vu le jour avec l'émergence du Big Data et de l’intérêt des entreprises pour Hadoop comme plate-forme de stockage et de gestion. Cependant, le fait de plonger aveuglément dans le déploiement d'un lac de données Hadoop ne portera pas nécessairement votre entreprise sur les terres du Big Data -- du moins, ce ne sera pas une réussite.

C'est particulièrement vrai lorsque ces données en volume sont placées dans un environnement Hadoop de manière désordonnée. Cette approche pose plusieurs problèmes qui peuvent sérieusement entraver l'utilisation d'un lac de données – et avec l’analytique.

Par exemple, il est difficile de documenter et d’identifier les objets stockés ou leurs sources et leur provenance. Les data scientists et autres analystes ont donc du mal à trouver des données pertinentes dans un cluster Hadoop. Difficile également pour les gestionnaires de données de savoir qui accède aux jeux de données et de déterminer le niveau d'accès adéquat.

Sans un processus bien géré, il sera également compliquer d’organiser les données et de regrouper des objets similaires pour faciliter l'accès et l'analyse.

Pourtant, aucun de ces problèmes n'a trait à l'architecture physique du data lake ou à l'environnement Hadoop sous-jacent. Les plus gros freins sont bien liés à un manque de planification ou à une mauvaise gestion des données.

Comment procéder étape par étape

Cependant la bonne nouvelle est que ces difficultés peuvent être facilement surmontées. Voici sept étapes qu’il convient de considérer :

1 - Créer une taxonomie pour classer les données. L'organisation des objets de données dans un lac de données repose sur leur classification. Identifiez alors chaque aspect clé des données comme le type de données, le contenu, les scénarios d'utilisation, les groupes d'utilisateurs possibles et la criticité des données. Cette dernière a trait à la protection des données personnelles et de l’entreprise, comme celles sur les clients ou celles sur la propriété intellectuelle.

2 - Concevoir une architecture de données adéquate. Appliquez la classification pour organiser les données dans votre environnement Hadoop. Le résultat doit comprendre par exemple la hiérarchie des fichiers pour le stockage des données, les conventions de nommage des fichiers et des dossiers, les méthodes et les contrôles d'accès pour différents ensembles de données, et les mécanismes pour la distribution des données.

3 - Utiliser des outils de profilage des données. Dans bien des cas, l'absence de connaissances sur les données peut être minimisée en partie par l'analyse de leur contenu. Les outils de profilage des données peuvent être utiles pour recueillir de l'information dans les objets de données ; ce qui permet de les classifier. Le profilage des données dans le cadre d'un data lake permet également d’identifier les problèmes de qualité des données. Ceux-ci doivent être mesurés pour les corriger et s'assurer que les analystes travaillent avec les bonnes informations.

4 - Normaliser l’accès aux données. La multiplication des méthodes d'accès aux données par différentes équipes d'analyse - dont un grand nombre ne sont pas documentées – est aussi l’un des freins à un usage efficace d’un lac de données. La mise en place d'une API simple et commune peut simplifier l'accès aux données.

5 - Développer un catalogue de données. Un autre obstacle porte sur le fait que les utilisateurs potentiels ne savent pas ce qu'il y a dans un lac de données et où se trouvent les jeux de données dans Hadoop (ni leur qualité ni leur source, par exemple). Un catalogue de données collaboratif permet de documenter ces détails - parmi tant d’autres - pour chaque donnée. Il permet par exemple de capturer des métadonnées structurelles et sémantiques, la provenance et la source, et des informations sur les privilèges d'accès. Un catalogue de données fournit également un forum permettant aux groupes d'utilisateurs de partager des expériences et des conseils.

6 - Mettre en place des protections suffisantes des données. Outre les aspects classiques de la sécurité IT, il convient également d’utiliser d'autres méthodes pour empêcher l'exposition des informations sensibles. Cela porte par exemple sur le chiffrement et le masquage des données ou sur une surveillance automatisée – cela permet de générer des alertes en cas d'accès ou de transferts de données non autorisés.

7 - Evangélisation interne. Enfin, assurez-vous que les utilisateurs de votre lac de données sont conscients qu’une gestion dynamique des données est nécessaire. Formez-les à trouver les ensembles de données dans les catalogues et à configurer les applications analytiques.

Pour que votre data lake donne tout son potentiel, il est crucial d'avoir un plan pour traiter les données avant de les migrer dans Hadoop. En appliquant ce qui est décrit dans cet article, vous contribuerez à rationaliser le déploiement d’un lac de données. Plus important encore, la bonne combinaison planification - organisation - gouvernance vous aidera à optimiser vos investissements et à réduire le risque d'échec.

7 étapes pour créer son data lake

Peupler un cluster Hadoop de données qui ne sont ni organisées ni gérées correctement risque de nuire à vos projets analytiques. Voici 7 étapes clé qui vous permettrons de mieux utiliser les données de votre data lake.

Comment procéder étape par étape

Pour approfondir sur Big Data et Data lake

Quelles perspectives au-delà du data warehouse ?

ReInvent 2021 : AWS renforce le contrôle des données dans Lake Formation

L’IPO peut attendre : Databricks lève 1 milliard de dollars

Data Lake : soutenu par Uber, le projet Apache Hudi gagne en maturité