sdecoret - stock.adobe.com
Saagie : du data lake-as-a-service à la gouvernance des données pour servir les métiers
La startup compte désormais piloter les data lakes des entreprises en y adjoignant des outils de gouvernance des données afin de cibler des usages métiers. Saagie a bénéficié d’un accompagnement de Capgemini via son programme AIE pour se ré-ajuster.
Parce qu’un data lake n’a de valeur que s’il est utilisé, autant le mettre à disposition au plus près des métiers. Cette conclusion, très pragmatique, Saagie s’est autorisé à la suivre et à l’appliquer à son modèle. Cette startup française, positionnée initialement en tant que plateforme pour industrialiser la data science - nous l’avions rencontrée lors de Big Data Paris 2018 - a aujourd’hui évolué pour suivre le rythme des entreprises en matière d’usage de leurs data lakes. Evolué, ou plutôt « cranté », pour reprendre l’expression de son CEO et fondateur, Arnaud Muller, comme le mécanisme d’une montre que l’on ne stoppe pas. D’une plateforme, l’offre technologique de Saagie s’est mue en « orchestrateur », sous l’impulsion de Capgemini, via son programme de sélection et d’accompagnement de startups, Applied Innovation Exchange (voir encadré).
Historiquement, la plateforme Saagie permettait de simplifier l’approche Big Data à une époque même où les data lakes rassemblaient à une jungle de composants open source. Une multitude d’éléments à intégrer à la main, quitte à perdre en route les entreprises, se rappelle d’ailleurs le responsable. Saagie proposait donc un produit capable de structurer ces briques, comme l’ingestion de données, leur traitement et la visualisation et la qualité de données. A l’époque, confirme Sébastien Guibert, en charge de l’IA chez Capgemini Insight&Data, c’était - et c’est encore selon lui - la seule solution qui pouvait être déployée sur site (via par exemple une appliance), sur un cloud Saagie ou sur de grands fournisseurs de cloud.
L’idée était ainsi d’opérer « les grandes étapes de la chaîne de valeur de la donnée avec un écosystème principalement open source qui évolue en continu », dans les grandes lignes. Mais la clé était bien d’industrialiser les projets et, surtout, de donner la possibilité d’accélérer les déploiements et la mise en place des services sur des data lakes. Data lakes souvent laissés en jachère par les entreprises en attente des métiers et de leurs cas d’usage.
C’est là qu’intervient la phase 2 de Saagie.
« En matière de data lake, on ne vend plus de technologie mais bien des usages et comment on s’organise autour de ce data lake », expose Arnaud Muller. Il est là question de gouvernance de la donnée, un élément désormais clé dans les entreprises qui recherchent à construire un modèle centré sur la donnée. « Après avoir nommé des patrons du Big Data, les entreprises ont nommé des Chief Data Officers . Ils s’interrogent sur la construction d’un SI centré sur la donnée et comment considérer le data lake comme le cœur de ce SI. Pour que cela fonctionne, l’entreprise doit disposer des sources de données documentées au-dessus de ce lac de données », explique-t-il.
Saagie propose donc de créer une couche d’abstraction au-dessus de ces lacs, et de raffiner la matière première, les données, pour les rendre consommables. Et ce qu’elles que soient les sources de données et les technologies utilisées (Cloudera, Hortonworks, Azure, AWS, Snowflake, ou des bases de données relationnelles). Saagie compte désormais consolider des données présentes dans plusieurs data lakes et entrepôts de données, que l’entreprise a mis en place.
Les entreprises ont certes besoin d’une usine, mais aussi d’une gouvernance de la donnée. Celle-ci doit être distribuée à l’ensemble de l’organisation et intégrée à toutes les équipes, au plus près de départements métiers, des domaines et de leurs usages spécifiques, ajoute le responsable. « Arrêtons les data lakes centrés sur des micro-initiatives », lance-t-il. Saagie souhaite désormais faire éclore les multiples cas d’usages dans les entreprises.
La gouvernance pour conduire la donnée aux métiers
Cette gouvernance, Saagie l’imagine servant chaque métier via une interface utilisateur adaptée à chaque rôle, pilotée par un module de gestion des droits d’accès. « Les entreprises ont la possibilité d’exposer par API toutes leurs données à tous les collaborateurs », illustre Arnaud Muller. Les data lakes d’une entreprise changent ainsi de dimension. De cas d’usage centralisés ciblant une unique typologie d’utilisateurs, les data lakes et leurs données sont désormais exposés, plus finement, à l’ensemble des départements.
Des profils d’utilisateurs sont définis en amont. Via Saagie Data Governance, des niveaux de confiance sont attribués aux données qui vont déterminer des niveaux de fiabilité. Une approche qui n’est pas sans rappeler celle de catalogues de données automatisés ou de dictionnaires de données, comme peuvent le proposer Alation ou Waterline Data.
D’importants travaux ont donc été menés au niveau de l’interface utilisateur pour gommer la complexité sous-jacente et rendre consommables ces outils de gouvernance aux différents métiers. Saagie dispose désormais d’une équipe d’ingénieurs dédiés à l’expérience utilisateur et à la partie DevOps. Celle-ci connait bien les technologies de metadata management des partenaires de la société. Technologies qu’il tend logiquement à remplacer.
Il n’utilise pas une couche de virtualisation de données, comme modèle d’abstraction, comme peut par exemple le pratiquer Tibco. « La valeur de la donnée vient de son enrichissement et du croisement de ces données. A l’échelle, tout virtualiser amène des problèmes de performances, de réseau et d’I/O », commente-t-il.
Levée de fonds et expansion en Asie sont les prochaines étapes pour Saagie. D’ailleurs, Alibaba pourrait bien être le prochain partenaire de la société.
L’avis de Capgemini
Saagie fait partie d’une sélection de startup que Capgemini accompagne via son réseau Applied Innovation Exchange (AIE). A travers, ce réseau AIE, composé de trois « labs » d’innovation, « Capgemini connecte un écosystème de startups aux entreprises utilisatrices pour répondre à des cas d’usage précis », souligne Sébastien Guibert, en charge de l’IA chez Capgemini Insight&Data, également au board de Saagie. Cet accompagnement permet d’inclure des offres de startups dans des appels d’offres et de répondre aux demandes d’innovation des entreprises.
« Le partenariat entre Capgemini et Saagie, découvert il y a 3 ans, remonte à l’époque du Big Data. On avait besoin d’une technologie différente pour répondre à certains cas d’usages et demandes des entreprises. On répondait à ces demandes avec de grands partenaires, mais il manquait une partie du produit », explique l’expert.
Mais depuis, avec l’aide de Capgemini, Saagie a repositionné son offre vers la gouvernance des données pour décupler la puissance des data lakes vers les métiers. Cette dimension gouvernance apporte également une notion de confiance, confie l’expert de Capgemini, qui s’ajoute aux capacités d’industrialisation initiales de Saagie. Un bon point dans un contexte régi par le GDPR.