everythingpossible - Fotolia
Le Big Data modifie les techniques traditionnelles de modélisation de données
Le Big Data est en train de modifier les techniques de modélisation de données, comme la création de schémas. Ce qu’il fallait retenir d’Entreprise Data World 2016 : les professionnels de la donnée doivent d’adapter.
L’avancée du Big Data, avec ses spécificités comme le volume élevé des données et des structures diversifiées, ont contribué à faire émerger de nouvelles technologies comme NoSQL, Hadoop ou Spark. NoSQL, par exemple a poussé les entreprises à revoir les modèles de données - et leur faire admettre que cela était possible.
« L’apprentissage de base est aussi quelque peu modifié, lorsqu’on aborde les bases de données NoSQL, comme MongoDB, Cassandra et Redis, a rappelé un des vétérans de la donnée, présent lors de la conférence Enterprise Data World (EDW) 2016 à San Diego.
« Personne ne nait en connaissant NoSQL », affirme Ted Hills, un architecte de la donnée chez LexisNexis. Les spécialistes de la modélisation des données doivent bien comprendre que tout ce qu’ils connaissent de la modélisation logique est encore d’actualité, mais ils doivent aussi comprendre que « NoSQL leur offre un outillage bien plus étendu », ajoute-t-il.
Les spécialistes de la donnée doivent être prêts à accepter cela, et adopter les nouvelles possibilités offertes par les outils Big Data, assure-t-il, même si ceux-là impliquent de revoir les méthodes de modélisation en place.
Ted Hills, auteur de « NoSQL et SQL Data Modeling », suggère de nouvelles notations en matière de modélisation pour mieux adopter les fonctions NoSQL.
Les techniques de modélisation de données et les schémas
Un des effets du développement de NoSQL est la création des schémas. Leur définition en amont était auparavant la clé de voute de la qualité des données et un prérequis pour qu’un projet aboutisse. La création de schémas peut être déplacée vers d’autres phases du cycle de développement, affirme Karen Lopez, architecte de la donnée et analyste principal chez InfoAdvisors.
« Il ne s’agit pas de dédaigner la qualité des données. Mais de ne pas se préoccuper des schémas en amont, explique-t-elle. Cela ne veut pas dire que l’on devient sans schémas. » On en vient à supporter le modèle « schema-on-read » - le schéma est parsé lors de la lecture, comme dans Hadoop.
Ted Hills confirme, ajoutant que l’enthousiasme des développeurs pour NoSQL se nuance lorsqu’ils se demandent ce qui se trame dans leur système de gestion de base de données. Il s’attend à ce que la modélisation des données passe d’un mode prescriptif seul à un autre qui comprenne une forme de modélisation descriptive, où les schémas de données sont créés a posteriori.
Vers plus d’agilité
Le terme descriptif est adapté aux architectures de données actuelles, soutient de son côté Lakshmi Randall, un analyste indépendant présent lors de EDW 2016. « Désormais, en ce qui concerne la modélisation des données, les choses sont plus descriptives. Au lieu d’essayer de planifier en amont, les cas d’usage se développent à la volée », affirme-t-elle.
«Un type de bases NoSQL se prête véritablement à cette approche, poursuit-elle. Il s’agit des bases de données en graphe. »
Les bases en graphe NoSQL ont la capacité de capturer l’information issue de nombre d’interactions, par exemple sur le Web et dans les systèmes CRM, explique Lakshmi Randall. Les bases en graphes peuvent ainsi être utiles pour créer un modèle descriptif pour un grand nombre d’applications.
Ted Hills, de son côté, explique que ce qui se cache derrière ce design NoSQL est de rendre le business et le développement plus flexibles. Cela prend forme dans la méthodologie agile et nombre de ses principes, comme les courtes itérations, les livrables rapprochés, sont extérieurs au monde de la modélisation traditionnelles.
L’agilité signifie que les équipes fonctionnent en projets plus petits qu’avant, souligne-t-il. Et les métiers sont impliqués à chaque étape.
« Ceux qui modélisent les données devraient s’inspirer du développement agile, et travailler en petits sprints. Notre monde traditionnel de la modélisation des données se rapproche davantage des processus dits en cascade », explique Ted Hills, faisant référence à un mode de gestion associé à des projets courant sur plusieurs années.
Pour lui, on ne fait pas fausse route lorsqu’on commence à stocker des données dans NoSQL avant la création de schémas. Invitant ainsi les spécialistes de la modélisation de données à être attentif à ce que peut apporter cette nouvelle technologie. « Ne le considérez pas comme un ennemi, mais plutôt comme une opportunité. Soyez proche de cette équipe de développement agile et dialoguez avec les métiers autant que le font les développeurs. »
Traduit et adapté par la rédaction