DigitalGenetics - stock.adobe.co
DataDNA : Teradata improvise une solution de gouvernance pour ses clients bancaires
Teradata propose un service SaaS nommé DataDNA, dédié à la gouvernance des données. Il s’agit d’un outil d’investigation des métadonnées dont l’origine prend racine dans les obligations des clients bancaires européens du spécialiste du data warehousing.
Dernièrement, le spécialiste du data warehousing Teradata s’est principalement consacré sur son métier, c’est-à-dire le stockage et l’analytique de données. La plateforme Vantage est résolument poussée vers les déploiements cloud et hybrides sur Google Cloud, AWS et Microsoft Azure. Mais en Europe, ces mouvements sur le cloud sont encore limités.
« On sent que ça commence à bouger », remarque Mélanie Cohen-Crété, directrice du consulting et consultante EMEA Western Geo (France, Italie, Espagne, Belgique et Pays-Bas).
« Nous faisons la comparaison avec les collègues américains qui discutent avec leurs clients depuis environ deux ans à propos du passage au cloud. Nous, nous expliquions que nos clients européens n’étaient pas prêts et qu’ils avaient des contraintes fortes de contrôle de la donnée », ajoute-t-elle.
« Aujourd’hui, ils commencent à y réfléchir, par exemple pour migrer leurs environnements de recette ou de développement. Mais je pense que finalement tout le monde y viendra, que ce soit dans le cloud public ou privé ».
Cette fébrilité apparente se justifie aisément. « Historiquement en Europe, la majorité de nos clients sont des banques », déclare Mélanie Cohen-Crété. Ces services financiers sont d’abord préoccupés par leurs politiques de gouvernance de données.
Le data lineage pour les établissements bancaires
L’éditeur a bien compris ce phénomène et s’est permis d’aller un peu plus loin que ces prérogatives habituelles, que sont le datawarehousing, l’analytique et les produits CX. Il propose également un « service » en mode SaaS réservé à l’investigation et à la gouvernance de données.
Cette volonté de tracer des données émane en partie du RGPD, mais Mélanie Cohen-Crété souligne une raison spécifique qui prend son origine dans les traitements bancaires.
« L’impulsion pour créer DataDNA vient de la finance. Je pense que c’est l’un des secteurs qui subit le plus de pressions réglementaires, aussi sur ces aspects de lignage. La norme BCBS 239 mise en place en 2016 a été un véritable moteur, parce que cette réglementation impose la maîtrise du système d’information, la traçabilité des données et des traitements », rappelle-t-elle.
Plus spécifiquement, DataDNA a été conçu pour répondre au besoin d’un client bancaire britannique de Teradata. La solution a d’ailleurs été bâtie sous la direction de la division anglaise de l’éditeur américain. Ce client analyse plus de 50 millions d’objets de données à partir de l’outil proposé par Teradata.
« La force de cet outil, c’est que nous allons nous baser sur les métadonnées qui sont contenues dans les systèmes. Nous allons les scanner pour comprendre quelles données sont disponibles et leur comportement, les mouvements, les traitements auxquels elles peuvent être soumises. Il n’y a pas besoin de faire appel aux experts ou aux instigateurs des traitements », assure Mélanie Cohen-Crété.
Il s’agit là de la méthode de collecte des ressources dites techniques, les fichiers en général, mais comme la plupart des data catalogs du marché, il convient de bâtir un glossaire des termes métiers qui permettra justement de classer les fichiers et les jeux de données, mais aussi de tracer les interactions entre eux. Une fois un fichier associé à un terme du glossaire, le lignage se fait en un clic, et permet de connaître d’où ce document émane, dans quel espace de stockage, de quelles applications il dépend et quelle est sont les sources de données (les jeux de données et les colonnes utilisées) qui le composent, qu’elles soient présentes dans des systèmes sur site ou dans le cloud.
En outre, une couche de règles automatisées détecte les doublons, les données sensibles et les traitements appliqués à ces données.
Mélanie Cohen-CrétéDirectrice du consulting EMEA Western Geo,Teradata
« Ensuite, nous avons un ensemble d’analyses qui va permettre de tirer de la valeur de ces métadonnées de manière industrielle, d’automatiser certaines tâches qu’un humain pourrait accomplir beaucoup plus lentement à l’échelle de l’entreprise », ajoute notre interlocutrice.
Un dashboard indique combien de bases de données renferment des informations personnelles, les sujets métiers les plus populaires, les fichiers les plus consommés, etc.
Outre l’identification des parcours de données, la directrice du consulting considère DataDNA comme un bon moyen pour préparer une migration de données.
« Nous présentons DataDNA à nos prospects qui ont un environnement on premise et qui envisagent de migrer vers le cloud. Un tel outil permet d’analyser le patrimoine et de sélectionner les données à migrer dans le cloud de manière à optimiser le projet de migration et ainsi de ne pas consommer des ressources cloud inutiles », affirme Mélanie Cohen-Crété.
Cela permettrait également d’évaluer la criticité des données et des traitements afin de savoir ce qui peut être porté ou non dans le cloud.
Enfin, la data science devient un sujet important à considérer. « La puissance technologique est là, mais l’adoption du Big Data et de la data science a recréé des silos. Il n’y a pas de mutualisation, ni de la collecte de la donnée ni de l’analyse. La data gouvernance permet de documenter tout cela », assure la consultante.
En sus des clients bancaires, DataDNA est proposé aux acteurs des télécommunications, par exemple.
DataDNA combine les briques de Teradata, AB Initio et Qlik
Il y a une raison pour laquelle Teradata préfère parler de service plutôt que de produit quand il évoque DataDNA. Toutes technologies déployées ici ne sont pas spécifiques à l’éditeur. Par exemple, il s’appuie sur l’outil de data lineage Enterprise Meta>Environnement d’AB Initio, et sur des tableaux de bord bâtis sur Qlik Sense.
« DataDNA est un asset avant d’être un produit. Nous l’avons construit sur la base de notre connaissance de gros SI afin d’aider nos clients à mieux maîtriser leur patrimoine informationnel », remarque Mélanie Cohen-Crété.
De fait, la consommation de l’outil en mode SaaS dépend du bon vouloir du client, qui peut le déployer à des fins d’audit ou dans le cadre d’une migration vers le cloud. « Par exemple, j’ai un projet de migration vers le cloud, je souscris à un abonnement pour six mois, je charge les métadonnées des systèmes que je souhaite migrer, je m’en sers pour sélectionner les données les plus utiles et j’en ai fini avec DataDNA. Mais l’outil peut être aussi manipulé par les responsables des traitements afin de comprendre les données au quotidien, de mettre en place des stratégies de remédiation des données ».
« L’outil est géré par nos centres de compétence. Ma recommandation, c’est d’avoir un interlocuteur local sensible à la data gouvernance pour se faire accompagner dans le cadre d’un projet », préconise-t-elle.
Du même coup, il n’y a pas d’adhérence totale aux architectures Teradata. « Les métadonnées peuvent provenir de différentes technologies, DataDNA est agnostique de ce point de vue là », assure Mélanie Cohen-Crété. Lors d’une démonstration, les responsables du service ont montré un cas, où l’outil de lignage identifiait des données en provenance de bases Oracle, qui étaient traitées à l’aide de la plateforme SAS. En revanche, la solution agrège les métadonnées et effectue les calculs sur une instance de Teradata Vantage Cloud.
DataDNA doit accomplir cette mission en limitant les dépenses, selon la directrice du consulting. « Les sujets de gouvernance et de data lineage peuvent être très rapidement consommateurs et demander beaucoup d’efforts de la part de la DSI ».
Ce service est donc une autre manière de visualiser des données, pas forcément de les manipuler, puisque l’outil n’accède qu’aux métadonnées.
« Nous n’allons pas pouvoir agir sur la donnée elle-même, mais cet outil est particulièrement utile pour prioriser les plans de remédiations des données les plus consommées », précise Mélanie Cohen-Crété. « Nous suggérons à nos clients de commencer par un système et ensuite d’étendre un périmètre élargi ».
D’autres éditeurs spécialistes de la préparation de données comme Talend ou Datameer se proposent de modifier les données après détection d’anomalies. Mélanie Cohen-Crété considère que n’est pas forcément la solution quand ces outils sont connectés aux entrepôts de données et qu’ils manipulent des informations bancaires.
« Personnellement, je ne suis pas une grande fervente de la modification des données dans le data warehouse. Selon moi, le meilleur plan de remédiation est de demander aux sources elles-mêmes de changer leurs données. Dans un environnement bancaire, ces systèmes sont liés à des produits comme les cartes, les crédits ou encore les référentiels tiers. Je trouve cela plus sain de réclamer aux responsables de ces systèmes d’améliorer la qualité de leurs données. Sinon vous ne soldez pas le problème à la source, et vous installez un biais entre les données que vous restituez à vos consommateurs et la source ».
Une urgence à cartographier les données
Mélanie Cohen-CrétéDirectrice du consulting EMEA Western Geo,Teradata
Peu importe les débats possibles sur les capacités des outils ou les méthodes de gouvernance, Mélanie Cohen-Crété encourage les grands groupes à se doter d’approches pour cartographier leurs données.
« DataDNA ou non, je pense qu’il est vraiment essentiel que les entreprises investissent dans des moyens industriels de cartographie de leurs données. Les organisations se cassent le nez parce qu’ils ont voulu le faire uniquement en réponse des demandes des régulateurs. Je prends l’exemple d’un client qui n’utilisait pas ce genre d’outils : cela lui a pris 18 mois pour cartographier un système qui a évolué entretemps. Cela coûte très cher de le faire manuellement et je pense que l’on perd de vue les valeurs à tirer d’une telle opération ».
Outre les bénéfices en matière de conformité, la responsable est persuadée que les gains de la data gouvernance existent et sont importants, en tout cas pour les établissements financiers. « Nous l’avons vu, vous pouvez faire des économies, mais la traçabilité des données de qualité, ça n’a pas de prix. Si vos informations sont exactes, vos estimations des risques sont plus justes. Si c’est le cas, c’est que vous avez moins de fonds propres à immobiliser. Cela représente une manne de millions, voire de milliards d’euros pour les banques », conclut-elle.