michelangelus - Fotolia
Qu'est-ce que la virtualisation de données ?
Selon Forrester, la virtualisation de données (ou Data Virtualization) est la forme particulière d'intégration de données qui connaît la croissance la plus rapide. Mais pourquoi est-elle si « particulière » ?
La virtualisation de données commence à gagner en popularité. Selon Forrester, elle est la forme d'intégration de données qui va croître le plus rapidement. Le Gartner, lui, prévoit que d'ici un an, plus de la moitié des entreprises l'auront implémenté.
Pour Yahya Jarraya, Senior Account Manager chez Denodo, France, Belux, Suisse francophone, « La Data Virtualization est une technologie agile d’intégration, d’abstraction et de services de données en temps réel [qui] permet un accès unifié à un large éventail de sources, sans répliquer ou déplacer les données, afin d’en créer une couche unique "virtuelle" ».
Les deux notions à retenir au coeur de cette virtualisation des données sont d'une part l'absence de réplication, et d'autre part la mise à la disposition « à la demande ».
« Par opposition aux outils plus traditionnels comme les ETL, on ne duplique pas la donnée dans des entrepôts intermédiaires, type datawarehouse », confirme Renaud Flandre, Solution Consultant France & BeLux chez TIBCO. « On accède directement et en parallèle aux différentes sources (base de données, environnements Big Data, grands ERP, etc.) lorsqu'on en a besoin. On peut utiliser, lorsque c'est nécessaire, un mécanisme de cache pour protéger les backends ou améliorer le temps de latence, mais la donnée exposée est toujours à jour ».
A quels besoins répond la virtualisation de données ?
Malgré les initiatives Big Data ou de type Self-Service BI, les entreprises souffriraient toujours de diverses problèmes autour de l’accès et de la consommation de la donnée, explique Denodo.
« Un analyste va passer en moyenne deux heures à trouver les données dont il a besoin. Une fois ces données trouvées, il passera les trois quarts de son temps à les retravailler », lance Yahya Jarraya.
La virtualisation de données vise à résoudre ce problème. Grâce à une couche d’abstraction et au catalogue de données, la data virtualization a pour but de simplifier la navigation dans toutes les données de l'entreprise. « Elle la rend aussi simple qu’une recherche sur Google », vante même le responsable de Denodo.
Cette simplicité mettrait même l'exploration des données à la portée des métiers. « Avec la virtualisation de données, ils sont capables d'interroger eux-mêmes les vues exposées sans se soucier de l'hétérogénéité des sources finales et surtout de leur complexité technique d'accès. C'est un élément clé de la self-service BI », dixit Renaud Flandre.
La Data Virtualization se drape de deux autres vertus : l'assurance du temps réel (« comme les vues sont "branchées" en direct - ou via un mécanisme de cache - sur les sources de données finales, la donnée est toujours à jour pour le consommateur », souligne le responsable TIBCO) et des économies de coûts.
« Parce qu'elle ne nécessite pas de dupliquer et d'agréger la donnée dans des entrepôts intermédiaires, et donc de développer les flux pour stocker l'information dans ces entrepôts, vous économisez largement sur les coûts de stockage et de développement de flux types ETL », promet Renaud Flandre.
Est-elle simple à mettre en œuvre ?
Sans surprise, les spécialistes de la virtualisation de données vantent également la simplicité des projets. Mais avec tout de même quelques chiffres pour étayer leur position.
Denodo par exemple, avance que « 61 % de nos projets ont fini en moins de trois mois ; et nous montons à 92 % pour des projets qui se terminent en moins de 6 mois ». L'éditeur arrive à optimiser le « time to data » (sic) notamment grâce à une liste de connecteurs et à un outil de design graphique. « Denodo traduit finalement des notions complexes en notions simples (SQL et API) [...] L'objectif est d'abstraire toute complexité et de mettre à disposition des vues simples, orientées métier : des tables à deux dimensions donc », explique Yahya Jarraya.
« Cela vient combler le fossé qui existe entre, d’une part, les multiples sources de données (Big Data, ERP, sur site, cloud, etc.) et, d’autre part, les consommateurs de cette donnée qui effectuent des analyses et des reportings avec différents moyens de Data Visualisation, ou les développeurs Web ou d’applications mobiles », conclut-il.
Même son de cloche chez TIBCO. L'éditeur cite en référence Forester et Gartner qui jugent l'approche « à peu près de deux fois plus rapide que des approches traditionnelles ».
Quant aux compétences, « elles sont les mêmes que celles actuelles nécessaires pour les utilisateurs de BI », assure Renaud Flandre. « Les vues sont accessibles via les mécanismes habituels (SQL, API ou ODATA). Et pour les équipes IT, les compétences ETL sont un bon point départ pour modéliser des vues ».
Deux exemples de virtualisation de données
Dans une assurance européenne de taille mondiale (le créditeur n'en dira pas plus), la solution de Denodo a été déployée pour mettre rapidement à disposition la donnée aux actuaires, aux analystes, à l’équipe finance, comptable, et autres métiers « en faisant abstraction totale de la source de données (SAP, Salesforce, Workday, applications in-house, Oracle) ainsi que de son emplacement géographique (on/off premises, USA, Europe, Asie) », raconte Yahya Jarraya.
En parallèle, l’équipe Data de l'assureur a complété sa plateforme en ajoutant un Data Lake. « De manière générale, la Data Virtualization a aidé à ingérer la donnée dans le Data Lake, à cartographier et cataloguer les données disponibles, à sécuriser et gouverner l’accès à la donnée, à tracer et à auditer toute la consommation et à mettre en place des stratégies d’optimisation de performance qui déchargent les applications sources et capitalisent sur les capacités du Data Lake (compute) ».
Pour illustrer un usage concret de la Data Virtualisation, Renaud Flandre imagine, lui, une entreprise qui stocke l'ensemble de ses interactions et de ses transactions avec ses clients depuis son site web, dans un environnement Big Data. Cette entreprise a probablement également ses informations produites dans un MDM et la liste de ses clients et des ses contacts dans un CRM.
« Si je vous demande d'avoir la liste par client de la fréquence des vues sur chaque produit, et du détail des produits... vous n'allez sûrement pas recréer un énième entrepôt de données en plus de ceux-là. Ça n'aurait pas de sens et ça serait beaucoup trop compliqué. Il suffit de créer une vue "détail clients" depuis votre outil de Data Virtualization qui va exposer une vue fédérée des informations clients du CRM, des produits du MDM et des transactions du Big Data ».
Lorsque les clients finaux vont interroger cette vue, la couche de virtualisation de données va interroger les différents systèmes en temps réel, puis va corréler l'information et la resituer aux utilisateurs sous forme d'une vue unique. « Comme s'il s'agissait d'une simple table », conclut le responsable de TIBCO.