Graphe : nouveau moteur pour les outils de gestion de données
Les technologies de graphes fleurissent sur le marché, y compris dans la gestion des données de référence (MDM – Master Data Management). Et Informatica, acteur clé du monde de l’intégration de données, a rallié la cause.
Les bases de données en graphe et les systèmes analytiques sont restés cachés depuis des années, enfouis dans des piles technologiques. Reposant sur des structures mathématiques, les graphes sont très performants lorsqu’il s’agit de modéliser les relations entre les données. Leur usage est toutefois resté assez confidentiel jusqu’alors.
En termes de visibilité, elles sont loin derrière les bases de données relationnelles qui, dans une certaine mesure, sont plus jeunes que les bases en graphes. Mais ces technologies sont aujourd’hui sous le feu des projecteurs, et sont au cœur de nombreuses nouvelles architectures applicatives. Cela a par exemple été le cas lors d’Informatica World 2016.
La technologie de graphe la plus connue est celle qui décrit les relations sur Facebook. Il existe une technologie identique derrière certains projets de Google, comme Knowledge Graph. C’est aussi une base de données en graphes (Neo4J) qui est derrière le vaste projet des Panama Papers, un consortium international de journalistes qui a récemment fait la Une des journaux.
Mais ce n’est pas tout. La technologie de graphe est également à la base d’un système de données sémantique utilisé pour mieux diagnostiquer les maladies. Cette mécanique est utilisée par le centre médical universitaire Montefiore Health System et l’hôpital universitaire du Bronx.
Cette même notion de graphes s’est même immiscée dans le rachat de LinkedIn par Microsoft pour 26,2 milliards de dollars. Satya Nadella, le CEO de Microsoft a même cité le graphe du réseau social comme l’un des joyaux au cœur de l’acquisition, celui qu’il espère connecter au graphe Microsoft.
D’ailleurs, les bases de données en graphes sont devenues dans bien des cas la solution au problème. Le MDM (Master Data Management) fait partie des cas d’usage. Les éditeurs de MDM s’appuient sur des technologies de graphes avec pour objectif d’améliorer l’offre et la gouvernance des données. Cela s’est vu dans les dernières versions de l’application Anzo de Cambridge Semantic ou la plateforme TopBraid de TopQuandrant, par exemple - sans oublier les dernières offensives de Tibco ou encore de DataStax.
Informatica et Liva Data Map
Cela s’est également traduit chez Informatica. Si cela ne se voit pas tout de suite, la technologie de graphes est au cœur de plusieurs nouveaux produits, à l’image de Live Data Map. Ce dernier agit comme un graphe de connaissances et un repository de métadonnées en permettant la découverte automatique de données ainsi que des opérations de préparations de données. L’application est certes récente, mais a atteint sa version 1.0 en décembre.
Lors d’Informatica World 2016, ce module a été pointé du doigt comme étant la technologie sous-jacente à Enterprise Information Catalog, un produit à venir chez Informatica. Il a aussi été utilisé dans le framework de gestion des Big Data du groupe, ainsi que dans Secure@Source, Intelligent Data Lake et PowerCenter.
« Live Data Map est infusé dans tout ce que nous faisons. Mais il ne s’agit pas seulement de connecter les produits Informatica, mais de connecter les données de toute l’entreprise. », a expliqué Amit Walia, vice-président et CPO (Chief Product Officer) chez Informatica. « C’est le système nerveux ou le cerveau du groupe. Cela devient le Google de l’entreprise », ajoute-t-il.
Le MDM est aussi un cas d’usage possible pour Live Data Map, soutient David Gleason, en charge de la stratégie et gouvernance des données chez JPMorgan Chase, qui participait à la conférence. «Nous considérons Live Data Map comme un moyen de visualiser et de créer des inférences avec les données. Aujourd’hui, il s’agit d’une expérimentation ou d’un chantier en cours, mais il symbolise définitivement notre orientation », ajoute-t-il.
Un signe d’innovation
Pour les responsables d’Informatica, Live Data Map est un des signes montrant l’engagement du groupe en matière d’innovation. Selon eux, la société a travaillé à améliorer les performances de la base de données en graphes Open Source, Titan, sur laquelle repose Live Data Map. Et justement : les performances sont généralement vues comme un point faible de ces systèmes.
Live Data Map va permettre à Informatica de mettre en place une feuille de route en termes d’innovation, assure Steward Bond, directeur chez IDC en charge du segment intégration de données. « Je suis impatient de voir quelle tournure cela va prendre. Il s’agit là d’unifier les metadonnées. »
Les repositories de métadonnées vont monter en puissance avec la volonté des entreprises d’exploiter les données non structurées, explique-t-il.