Syncsort et Trillium veulent bannir les « Data Swamps »

Syncsort présente les deux premiers outils issus du rachat de Trillium dont la vocation est de connecter DMX-h aux outils de gouvernance, de profilage et de validation des données de Trillium. Appliquer les fondements de l’ETL à Hadoop ?

Syncsort, un acteur historique du monde du mainframe, reconverti dans celui de l’intégration de données multi-sources, a officiellement décidé de s’attaquer au problème de la gouvernance des données dans un lac de données (data lake). Objectif : éviter de transformer Hadoop (ainsi que Spark) en un marécage de données (pour « data swamp »), peuplé de données multiples et hétérogènes devenues inutilisables. Pour cela Syncsort joue la carte de la complémentarité avec les outils de Trillium Software, société acquise en 2016, et dont les premières briques d’intégration se traduisent concrètement à travers deux produits présentés début juin.

Pour mémoire, Syncsort, fondé en 1968, fait partie de ces dinosaures du marché, qui ont dû ré-ajuster leur stratégie pour de frayer un chemin dans l’IT moderne. La société s’est par exemple portée  vers la modernisation des grands systèmes faisant le pari que les entreprises souhaiteraient se délester de leurs très couteux systèmes pour des plateformes modernes de Big Data. Comprendre migrer données et applications.

Puis la société a développé un outil d’intégration de données multi-source DMX – et pas uniquement mainframe -  qu’elle a ensuite adapté au monde Hadoop. Cela a donné DMX-h, qui s’installe sur chaque nœud d’un cluster Hadoop et opère au-dessus des tâches d’intégration vers la plateforme de Big Data – et HDFS donc.

Depuis son rachat par le fonds d’investissement Clearlake Capital Group, Synscsort a réalisé plusieurs acquisitions, dont celles de Cogito dans l’optimisation des gros systèmes IBM z et de la base DB 2 et de leurs performances. Dernière en date, celle de Trillium Software (qualité des données) qualifiée à l’époque de rachat clé pour la stratégie de croissance de Syncsort.

De ce rachat naissent aujourd’hui deux solutions.

Profiler et valider les données lors de leur intégration dans Hadoop

La première consiste à rapprocher étroitement l’intégration de données vers Hadoop de la gouvernance même de ces données, afin de disposer, avant même les phases de préparation, d’une cohérence globale. Le tout de façon unifiée et au sein même du framework de la fondation Apache.

Concrètement, il s’agit de coller Trillium Discovery à DMX-h, permettant d’avoir une vue globale de la qualité des données versées dans le data lake et d’en évaluer la conformité, par exemple, avec les politiques de l’entreprise en matière de qualité des données. En clair, la volonté de ce tandem est de maintenir un data lake opérant et efficace.  Une façon de rappeler que les lacs de données ne sont pas forcément exempts des procédures traditionnelles d’ETL (Extract, Transform, Load) qui assure a minima une certaine forme de qualité.

La solution de Trillium indentifie par exemple les données non conformes ou celles qui doivent être corrigées. Elle s’appuie pour cela sur une banque de règles métier.

Le second outil s’inscrit dans le prolongement du premier, car « Trusted Custumer 360 », son nom, conjugue les outils de vérification et validation des données à DMX-h de Syncsort. Cette solution enrichit ainsi les données intégrées afin de donner une vision complète et juste des données clients, précise Syncsort.

 Par exemple, l’outil est capable de vérifier les adresses postales et emails d’un profil en s’appuyant sur des sources publiques, d’éliminer les doublons et d’enrichir les informations en se connectant à des bases tierces ou encore de contrôler si l’adresse email est bien conforme (si son domaine n’est par exemple pas blacklisté). Notons que cette option est aussi proposée par plusieurs sociétés du secteur, à commencer par Informatica et le Français Cartegie.

 

Pour approfondir sur MDM - Gouvernance - Qualité