Petya Petrova - Fotolia
La qualité des données progresse au rythme des systèmes Big Data en production
Mais, pour certains qui utilisent les lacs de données pour réaliser des analyses prédictives, la qualité des données n’est pas une priorité
Alors que les lacs de données s’installent dans les environnements en production, l’intérêt pour la qualité des données grandit dans les entreprises. Comme une lapalissade, c’est une des conclusions que l’on aurait pu retenir de la dernière étude annuelle de Syncsort pointant les grandes tendances de 2018 en matière de Big Data. Une conclusion finalement logique mais riche d’enseignements : il apparait s que parmi les principaux secteurs d’activités listés, les secteurs des services financiers et de la santé apparaissent comme ceux ayant déjà déployé des lacs de données en production - des secteurs hautement régulés dans le monde entier. La population répondant à cette étude est également composée d’entreprises du secteur public et du secteur de l’information – ce dernier étant très concerné par la mise en place de la loi européenne RGPD.
Ainsi sur les 200 répondants, 40% affirment avoir déjà déployé des lacs de données bâtis sur Hadoop ou Spark. 30% évoquent des pilotes en cours. Syncsort note que ces socles inhérents au Big Data s’inscrivent désormais comme des composants clé des SI des entreprises. A 70,8%, les opérations de transformation des données (ETL – Extract, Transfert and Load) sont les premiers cas d’usage de ces data lakes. Suivent les opérations d’analytiques avancées et l’analyse prédictive (63,5%) et l’analyse temps réel (60,4%).
Avec des environnements d’entreprise toujours plus ramifiés et distribués, les entreprises sont amenées à exploiter les données issues de différentes sources et à les transférer dans le data lake pour y effectuer les précieuses analyses. Parmi ces sources, la base de données relationnelle reste le principal contributeur à l’enrichissement de ces plateformes (69,3%) devant l’entrepôt de données (62,5%), cité comme première source dans l’édition précédente de cette étude. Les bases de données NoSQL (46,4%) suivent aux côtés des fournisseurs de données tiers (45,3%). Le Cloud – une source qui ne cesse de grandir – est une source pour 40,6% des répondants et le mainframe (31,8%). Rappelons que la migration d’applications et de code mainframe vers des socles modernes et standards est une spécialité de Syncsort.
L’on comprendra ainsi l’intérêt grandissant des entreprises pour la qualité des données de ces lacs de données et pour leur gouvernance. Ce sont là les deux principales difficultés rencontrées par les entreprises répondantes. Elles détrônent d’ailleurs l’argument de la pénurie de compétences, préoccupation n°1 des entreprises lors des 3 précédentes études.
Plus la diversité des données est importante, plus les entreprises ressentent la nécessité de travailler sur la qualité des données, résume ainsi Syncsort. Pour 60% des répondants, la moyenne des sources de données est de 4, mais pour celles qui en intègrent plus de 5, cet intérêt pour la qualité des données est 4 fois plus important.
Pourtant, il existe bien un paradoxe : la qualité des données n’est encore pas une priorité pour toutes les entreprises, y compris celles qui ont placé parmi les premiers cas d’usage de leurs lacs de données des opérations d’analyses prédictives par exemple. Un vrai « souci », souligne Syncsort qui rappelle que la qualité des analyses fournies sera directement liée à la qualité des données analysées…