DataGalaxy veut rendre accessible la gouvernance des données aux métiers
Fondée en 2015, la startup lyonnaise DataGalaxy affiche des ambitions fortes. Sa solution de gouvernance de données a déjà convaincu de grands comptes français et intéresse les premiers investisseurs.
Pour analyser les données, y appliquer des modèles de machine learning, il faut d’abord les gouverner, puis les préparer. Or, cette étape représente encore 80 % du travail des équipes de data science, selon Gartner.
C’est dans cette optique que DataGalaxy a vu le jour en 2015. La startup lyonnaise a été fondée par deux anciens consultants : Lazhar Sellami et Sébastien Thomas.
« Nos chemins se sont croisés en 2009 sur un gros projet de Business Intelligence. J’étais le porteur du besoin métier. Sébastien était la personne qui devait le réaliser et l’exécuter », relate Lazhar Sellami, cofondateur et Chief Product Officer chez DataGalaxy. « Nous nous sommes rendu compte que c’était très compliqué de travailler sur les données des entreprises même si l’on faisait collaborer techniciens et métiers », ajoute-t-il.
Le véritable responsable ? Le temps. « Dans un système construit depuis plusieurs années s’il n’y a personne qui est désigné comme référent de la connaissance des données, finalement il y a un travail d’archéologue à faire. C’est très chronophage et fatigant pour les équipes », constate le cofondateur de DataGalaxy.
Après avoir géré un projet de plus grande envergure en 2014, les deux consultants ont décidé de lancer leur propre solution.
« Nous avons pu parler avec un certain nombre de nos pairs, d’entreprises et de clients. Tout le monde rêvait d’avoir cette solution, mais il n’y avait rien sur le marché », avance-t-il.
Les investisseurs n’ont pas répondu présents dans un premier temps. « À l’époque, c’était la mode des applications de rencontres ou de livraison ; quand nous expliquions que nous collections des métadonnées et que nous faisions du catalogage de données, cela ne parlait pas à tout le monde », constate Lazhar Sellami.
Les fondateurs de DataGalaxy ont donc investi leurs « propres deniers », puis ils ont été accompagnés par la BPI. Après avoir validé une version de test auprès d’un réseau de confiance, DataGalaxy a lancé sa V2 en 2017, mais il a fallu attendre 2019 pour que la jeune pousse bénéficie des fruits de son travail.
Aider les entreprises à connaître et comprendre le contenu de leur data lake
Cette « plateforme » SaaS doit indexer automatiquement les métadonnées des informations de l’entreprise, les exposer aux collaborateurs et leur permettre de les retrouver, de les renseigner sur les traitements effectués et de les analyser.
« Aujourd’hui, nous souhaitons répondre à une question de fond. Quand quelqu’un s’interroge sur une donnée, quelle(s) réponse(s) cherche-t-il à obtenir ? » explique Lazhar Sellami. « C’est la fragmentation de la connaissance de la donnée qui était le problème. Chacun des spécialistes dans l’entreprise devenait dépositaire d’un élément particulier. DataGalaxy est la plateforme où tout collaborateur doit accéder à la connaissance du contexte de la donnée ».
Les fondateurs de DataGalaxy considèrent que leur outil doit répondre à quatre questions des métiers. « Quel est le type de données recherchées, où sont-elles stockées, quel parcours ont-elles effectué et pour faire quoi ? ».
La solution vise à rassembler les éléments de contexte des données dans un métamodèle, un Data Catalog, qui permettrait à « tous les utilisateurs, quel que soit leur profil, d’obtenir une réponse identique ».
« Nous savons présenter les bonnes facettes de l’information en fonction de l’utilisateur ». Pour cela, l’usager définit son profil et DataGalaxy va « séquencer » les informations nécessaires aux différents utilisateurs.
La solution s’adresse en premier lieu aux « data bakers ». C’est le terme choisi par DataGalaxy pour désigner l’ensemble des acteurs de la donnée : data scientists, chief data officers, responsable BI, data architects, DPO ou encore Data Stewards. Les autres métiers peuvent aussi participer et bénéficier de plus amples renseignements sur les traitements.
« Nous ne récupérons que les structures et les métadonnées et nous les exposons sur la plateforme DataGalaxy », affirme Lazhar Sellami.
Une solution modulaire développée sur mesure
Ces concepts sont sous-tendus par un ensemble de briques technologiques en grande partie dépendantes d’un développement interne.
Pour se connecter aux diverses sources de données dans une organisation, DataGalaxy a développé ses propres connecteurs rassemblés sous l’appellation générique « le connecteur DataGalaxy ». Les connecteurs peuvent récupérer des informations SQL, NoSQL depuis des bases de données (Oracle, Db2, MySQL, PostgreSQL…), des ETL/ELT, par exemple Talend et Informatica, ou encore des plateformes analytiques Tableau, Power BI ou encore Qlikview. Lazhar Sellami promet qu’il sera bientôt possible de le faire depuis une plateforme CRM, typiquement les cloud Salesforce.
Le système de stockage des métadonnées des sources a été lui aussi développé par DataGalaxy. Il a conçu plusieurs couches au sein de son Data Catalog. L’éditeur a développé ce qu’il appelle un « glossaire métier », un outil sémantique qui permet de définir les objets métiers avec une description verbale. Le « dictionnaire de données » permet d’indiquer la nature des tables, le format des informations, les fréquences de rafraîchissement, les types de données, etc. Un troisième registre sert à décrire les traitements, leurs objectifs et les responsables. Enfin, un dernier modèle fournit un annuaire des usages des données produites et de toutes les applications qui utilisent les données.
Les utilisateurs sont donc invités à collaborer en temps réel afin de créer, de commenter des modèles et de rassembler des jeux de données.
La startup propose une fonctionnalité de Data Lineage propriétaire. « Nous parlons davantage de restitution de parcours, de structures, de blocs ou de clusters de données afin de répondre à une question précise », détaille le cofondateur de DataGalaxy. Selon lui, c’est le métamodèle associé qui permet d’établir ces cheminements. La librairie D3js permet d’élaborer les visualisations relatives à la relation entre les jeux de données, leur emplacement, les traitements et les utilisateurs. Un système de recherche repose lui sur le moteur open source Elasticsearch.
DataGalaxy considère que sa plateforme répond à quatre familles de cas d’usage : la valorisation de données (traitement analytique), la gouvernance de données, le respect des régulations comme le RGPD et le développement logiciel.
« Du fait que nous répondons à des besoins spécifiques, nous concevons une solution sur-mesure. Les technologies existantes sont un peu toutes orientées vers une finalité qui n’est pas souvent celle souhaitée par les métiers ». […] « Jusqu’à encore récemment les éditeurs ne vendaient pas l’usage », assure Lazhar Sellami.
La solution est disponible sur le cloud (instance en France et en Europe) mutualisé Microsoft Azure, proposé par DataGalaxy, ou sur les clouds AWS, GCP et Microsoft Azure des clients.
Une ambition à l’international
Au total, DataGalaxy compte une quarantaine de clients, principalement en France. Parmi eux, SNCF Gares et Connexions, le Groupe Rocher, Bouygues Travaux Publics, Cultura, Auchan Retail Data ou encore le groupe Covea. Dans un témoignage lors du salon de la Data 2019 de Nantes, les responsables de la gestion du lac de données Avalon de SNCF Gares et Connexions ont expliqué leur utilisation de la plateforme. Ils se servent de DataGalaxy pour cartographier les données en provenance des activités commerciales et humaines dans les gares : taux de disponibilité d’escaliers mécaniques, activités des boutiques, etc.
Les autres utilisateurs sont situés en Belgique, au Portugal ou encore en Suisse. « Cette année, nous voulons accélérer le déploiement en France et en Europe et nous voulons tripler le nombre de clients » vante Lazhar Sellami. Pour cela, la startup a levé 1,7 million d’euros auprès des fonds parisien et lyonnais Newfund et Evolem Start.
Lazhar SellamiCofondateur et CPO, DataGalaxy
DataGalaxy va également renforcer ses capacités R&D afin de poursuivre le développement de son produit. « Nous espérons préparer une importante levée de fonds de série A dans les 18 à 24 prochains mois pour passer à l’échelle internationale », assure le cofondateur de la startup. Pour l’instant, DataGalaxy n’est pas rentable et se considère en phase d’investissement. Elle veut prouver que sa solution SaaS est efficace dans différents secteurs d’activité.
Il ne s’agit pas de prétendre aux capacités des grands éditeurs du Data Catalog, de la BI et de l’analytique qui proposent déjà des solutions similaires. « Au vu de la problématique que nous adressons, nous ne pouvons pas déployer à l’échelle de l’entreprise le premier jour. Il faut avoir un sponsor, une volonté d’entreprise d’y aller », tempère Lazhar Sellami. « Il n’y a aucun outil au monde qui est capable de gommer en un ou en deux ans la méconnaissance des données sans impliquer les équipes. Les cas d’usage sont fonction de la maturité, l’organisation et la culture du client », conclut-il.