Intégration de données : Talend entend simplifier le temps réel
La société met actuellement une solution baptisée DataStreams qui s’adossera au projet Open Source Beam. L’idée est de faciliter graphiquement l’intégration de flux de données.
L’intégration de données en temps réel est désormais bien inscrite sur la feuille de route de Talend, a confirmé Laurent Bride le CTO de la société qui organisait ce jour sa conférence Talend Connect. Devant un parterre de quelque 600 clients et partenaires, la société a tenu a ré-affirmer sa stratégie pour 2017, après avoir franchi un cap, cette année : celle de l’introduction en bourse. Un contexte structurel changeant, certes, mais Mike Tuchen, le CEO de Talend est venu rassuré son écosystème européen que les investissements seront préservés et assurés dans des domaines aujourd’hui clés pour les entreprises. A savoir le Big Data, le Cloud, l’intégration en mode self-service pour cibler les métiers et enfin le temps réel.
Si certes, ces trois premiers domaines s’inscrivent logiquement dans la continuité de l’offre actuelle de Talend, la Data Fabric, Le temps réel sera un élément complémentaire, qui selon la société est aujourd’hui est une préoccupation de certaines entreprises, dans certains cas d’usage. La vocation de la Data Fabric étant de répondre aux problématiques d’intégration modernes (comprendre Big Data, cloud et hybride), il fallait désormais peaufiner cette notion de temps réel. Même si finalement, le batch est encore à 90% le mode d’intégration des données, a tenu à rappeler Laurent Bride.
« Si le batch est encore bien là, Talend va pousser vers l’intégration en temps-réel », a-t-il expliqué, notant que dans la réalité la prise en compte de cette dimension est très complexe. Par exemple, « le temps-réel ne suit pas systématiquement la progression de l’arrivée des événements », souligne-t-il en s’appuyant sur des retours d’expérience publiés par Google pour son offre Data Flow. Là où donc Talend veut faire la différence : inscrire la manipulation des flux d’intégration en temps réel dans une console graphique, facile à manipuler.
Faciliter la manipulation de flux en temps réel
Ainsi la société travaille actuellement à un produit nommé DataStream, dont une première Preview est attendue d’ici quelques semaines. L’offre est attendue d’ici quelques mois, a confirmé le CTO. Pour son projet, Talend a choisi de s’appuyer sur le projet Beam de la Fondation Apache. Avec son expressivité, « Beam propose de créer une couche d’abstraction pour représenter un pipeline », explique Laurent Bride. Encore dans l’incubateur de la fondation Open Source, Beam fournit en fait un SDK (Java et Python, pour le moment) qui permet de représenter et de transformer toutes formes de jeux de données et avec le lequel on compose les pipelines, précise le site du projet. Talend collabore avec Google, DataArtisans, Cloudera, Paypal et DataTorrent au sein de ce projet.
Cette couche d’abstraction permettra ensuite de faire tourner ces pipelines sur plusieurs frameworks, comme Google Data Flow, ainsi que sur les projets Apache Spark, Flink ou encore Apex. Talend entend « faciliter tous les cas d’usage liés au temps réel ».
D’ici là, la société sortira en janvier la version 6.3 de sa plateforme qui comportera aussi des améliorations liées au temps réel. Son ambition est encore de « simplifier le développement d’applications » se reposant sur cette notion. Laurent Bride évoque par exemple le support de Spark 2.0 : SparkSQL sera directement intégré au Talend Studio. Les composants de l’éditeur MapR (spécialiste du monde Hadoop), MapR-DB (base de données) et MapR-Streams (streaming de données) et les fonctions multi-part d’AWS S3 seront aussi supportées.