Teradata et l’Open Source : la relation se structure avec Think Big et Kylo
L’ouverture de Kylo, framework de création de data lakes, illustre la place qu’occupe désormais l’Open Source dans l’écosystème de Teradata. Retour sur la solution et la place de Think Big dans cette équation.
Fin mars, Teradata levait le voile sur Kylo. Si l’annonce d’une solution chez Teradata n’est certes pas nouvelle, celle-ci vient toutefois illustrer une évolution de la stratégie globale de cet acteur historique de l’entrepôt de données : Kylo est un projet Open Source développé en interne, via l’entité Think Big issu du rachat la société en 2014.
Kylo, un accélérateur de cas d’usage au-dessus de data lakes
Kylo est en fait une technologie dont les fondations reposent sur l’expérience de cette société, en matière de création de data lakes, acquise au fil de nombreux projets. La technologie se positionne en somme comme un « accélérateur » de projets de data lake. Comment ? Kylo (voir également en encadré) entend soulager les entreprises de certaines tâches, comme l’ingestion, la qualité (Wrangle) et la préparation des données ainsi que leur exploration, afin de mieux les insérer dans un environnement de data lake, commente Mike Merritt-Holmes, vice-président de Think Big. Le tout en misant sur l'automatomisation des procédures. Kylo s’appuie par exemple sur le projet Apache NiFi pour la gestion des flux de données.
La solution est déjà utilisée en production dans le secteur bancaire, de l’aérien, chez un grand compte des telcos et dans l’assurance, précise-t-il, sans citer de noms.
Un écosystème Teradata étendu à l’Open Source
Au -delà de l’approche technologique, Kylo est aussi l'illustration d’un ajustement de la stratégie entamé par Teradata : celle de la prise en compte de l’Open Source – et de Hadoop - dans l’écosystème des entreprises.
« Teradata veut proposer le bon choix technologique et vendre la mise en place d’une architecture d’un projet de données et pourquoi pas, aller jusqu’à la réalisation du projet », commente Eric Joulié, vice-président et directeur général de Teradata pour l’Europe de l’ouest et du sud. Un fournisseur d’architecture globale, plus qu’un fournisseur de solutions IT, en somme. Et dans cette équation, l'Open Source est devenue un élément clé dans les entreprises.
L’éditeur souhaite désormais « être en synergie et non pas en compétition » avec Hadoop. « La plupart des discussions avec les clients et leurs partenaires portent davantage sur comment je tire le meilleur parti de ces 2 technologies (Hadoop et entrepôt de données, NDLR) », résume de son côté Jean-Marc Bonnet, en charge du conseil en matière d’architecture Data et Analytics chez Teradata en France.
« Les clients ont compris qu’Hadoop ne fera pas tout », renchérit de son côté Eric Joulié.
Et Teradata est désormais associé à ces projets hybride qui mèlent Open Source et solutions du groupe. Lors de Teradata Universe 2017, par exemple, Informatique Banque Populaire (i-BP) a montré un environnement hybride, conjuguant l’entrepôt de données de la marque à un cluster Hadoop pour favoriser la mise en place de scenarii Big Data – au sein de ce que i-BP nomme la Data Factory.
Think Big, un moteur de Teradata
L’éditeur a inscrit l’Open Source dans sa feuille de route avec le rachat de Think Big. « Think Big a été un moyen pour Teradata de s’écarter de son image de fournisseur d’entrepôt de données haute performance et de se concentrer sur les usages métiers, et les clients et mettre en place une stratégie Open Source. Le groupe souhaitait également avoir une vision plus agnostique », explique encore Mike Merritt-Holmes (Think Big).
Depuis, Teradata est devenu un contributeur actif du projet Presto (moteur SQL pour Hadoop) et a versé dans l’Open Source, sous le nom de code Covalent, une plateforme de composants d’interfaces utilisateurs (sous Angular-Material). Sans parler de Kylo, donc.
Si d’ailleurs l’un des fondateurs techniques de Think Big est désormais à la tête des activités Architectures Services de Teradata, la société est aussi un élément structurant dans les activités de services proposés globalement par le groupe, pour justement appréhender ces environnements hybrides.
Aujourd’hui, les équipes de consultants de Think Big interviennent aux côtés des équipes des services professionnels (Teradata Professional Services) proposés par Teradata. Si ces dernières sont centrés sur les travaux historiques de Teradata, résume Jean-Marc Bonnet, celles de Think Big interviennent dans le cadre de projets liées à la data science, la data engineering, la BI et la visualisation et, donc, l'Open source. Ils apportent une dimension Business Consulting sur ces projets. « Des architectes font la liaison entre les deux, en fonction des projets pour avoir une vision globale, et envisager des architectures hybrides si besoin », ajoute encore Jean-Marc Bonnet. Une approche unifiée, pour avancer d’une seule voix avec l’Open Source en somme.
Kylo : accélérer les usages
La solution a été conçue pour favoriser la gouvernance des données et s’inscrire dans les politiques des entreprises, explique Mike Merritt-Holmes, vice-président de Think Big. Kylo peut aussi se consommer en mode self-service en donnant aux utilisateurs métier la main sur les procédures d’ingestion de données, par exemple. Cela s'effectue par le biais de templates. Les data scientists peuvent également interagir directement avec la donnée pour la rendre conforme, l’ajuster et la mettre au bon format, pour au final développer un modèle adéquate.
En matière de qualité de données – un élément essentiel quand on évoque les usages de data lakes –, Kylo permet d’unifier les formats des données et de les masquer, par exemple. Mais Mike Merritt-Holmes insiste sur le fait qu’avoir à standardiser des données issues de nombreuses sources de données hétérogènes est l’un des points centraux à ce niveau. Kylo propose ainsi des outils de transformation natifs, qui s’appuient sur Spark. La solution prend également en compte la validation des données, afin de s’assurer qu’au final les bons formats sont associés aux bonnes données.
Les opérations sont également monitorées et injectées dans des tableaux de bord. Au final, l’ensemble de ces tâches s’effectue au sein d’une interface graphique. « Il s’agit là de donner des usages métier à un data lake sans intervention de l’IT, en créant une couche d’abstraction au-dessus de la donnée et en y greffant une série de fonctions », commente encore Mike Merritt-Holmes. L’intérêt de cette première version, versée dans l’Open Source, est notamment de simplifier les procédures généralement lourdes, par le biais d’un outillage adapté, comme des templates.