Waterline Data veut cataloguer automatiquement les données cachées
La société californienne développe une solution de catalogage automatisé de données qui jusqu’à étaient perdues ou cachées et donc sous exploitées. Son idée est de redonner de la structure à ces lacs de données, souvent trop marécageux.
302 jours ; 21 heures ; 13 minutes et 25 secondes. Pour montrer clairement son positionnement, la société californienne Waterline Data a décidé d’afficher sur son site Internet un décompte de jours, presqu’anxiogène, avant l’entrée en vigueur du règlement européen RGDP. Pour cette société, qui a bâti son modèle sur la création de ce qu’elle baptise les Smart Data Catalogs, ce règlement sur les données est du pain béni, et entend bien faire valoir ses technologies sur le terrain de la gouvernance de données – l’un des cas d’usages types de Waterline Data.
Avec sa solution de catalogues intelligents de données, Waterline Data tente en fait de remettre un peu de structure à des données qui ont été déstructurées, et placées – par exemple – dans les très tendance lacs de données. Ces vastes repositories dans lesquels toutes – sans exception – les données sont posées, au même niveau, sans hiérarchisation. Si ces data lakes sont une illustration technique du Big Data, elles ont aussi donné naissance à des « data swamps », des marécages de données, où se perdent donc les données utiles à l’activité de l’entreprise. On parle ici de « dark data ».
Machine Learning et crowdsourcing
Avec son outil de catalogue intelligent, Waterline Data veut donc identifier les bonnes données, leur redonner vie en les injectant dans un cycle de gestion d’activité, résolument métier. Pour cela, la solution Smart Data Catalog (actuellement en version 4.0) permet justement d’automatiser la création de ces catalogues particuliers. Dans un premier temps, la solution est chargée de découvrir automatiquement les données. « On scrolle les données et on en détecte une valeur », commente Kaycee Lai, le COO de Waterline lors d’une rencontre avec la rédaction. Celles-ci sont ensuite organisées par le biais d’un tagging ; ce qui les range dans un glossaire commun. Les sources de données sont également analysées et consolidées. Ce tagging est certes automatisé grâce à du Machine Learning, raconte le COO, mais une intervention manuelle est nécessaire pour certaines données – celles pouvant difficilement être classées dans un catalogue, ou celles par exemple comportant des erreurs -. Waterline Data utilise ici le principe collaboratif de crowdsourcing pour appliquer ce tri, le plus pertinent possible.
Les données sont ensuite reliées entre elles, après avoir été approuvées et validées. Elles deviennent enfin utilisables dans un contexte métier. Un autre point clé porte sur la capacité de l’outil à identifier le degré de criticité d’une donnée ainsi que ses droits d’accès et d’en garantir ainsi la gouvernance. Suivant cela, elles peuvent ensuite être recherchées via l’interface de Waterline Data ou - et c’est un point important – connectées à des outils de BI ou analytiques via des API REST.
Hadoop et bases de données relationnelles
Initialement cantonné au monde Hadoop, Smart Data Catalog s’est logiquement ouvert aux autres sources de données plus traditionnelles comme Oracle, Teradata ou MySQL – le tagging peut y être directement effectué. Waterline Data a également étendu ses ramifications aux entrepôts de données placés sur AWS.
Si la mise en place de services analytiques en self-service est l’un des cas d’usage évident listés par Waterline Data – « cela permet aux data scientists de trouver la bonne donnée », commente le COO -, cette approche de catalogues intelligents trouve évidemment ses usages dans la gouvernance, la conformité et la gestion du risque. Bien classées, les données les plus critiques, du moins celles nécessaires lors d’un audit, sont facilement identifiables et consultables, et surtout, la solution garantit la traçabilité des sources. Enfin, la rationalisation des données multi-environnements fait également partie des cas d’usage de la solution de Waterline Data – « Où se trouve les données redondantes et combien puis-je en éliminer », illustre-t-il encore.