Syncsort enrichit son ETL pour Hadoop

A l’occasion de l’Hadoop Summit qui se tient actuellement aux Etats-Unis, le spécialiste de l’intégration de données et du mainframe a décidé de faire évoluer son approche d’accélérateur des phases d’intégration de données en préparant un peu mieux son outil DMX-h au contexte du Big Data.

par

Cyrille Chausson, Rédacteur en Chef

Publié le: 05 juin 2014

Syncsort poursuit sa quête du marché du Big Data. A l’occasion de l’Hadoop Summit qui se tient actuellement aux Etats-Unis, le spécialiste de l’intégration de données et du mainframe a décidé de faire évoluer son approche d’accélérateur des phases d’intégration de données en préparant un peu mieux son outil DMX-h au contexte du Big Data. Un contexte qui évolue rapidement au rythme de la mise en place des projets dans les entreprises.

Pour mémoire, Syncsort, acteur historique du mainframe – il revendique 50% du parc mondial – a la particularité de se positionner sur le segment de l’ETL avec une approche résolument axée sur l’optimisation des performances des phases ETL, et du déchargement de celles-ci, historiquement réalisées dans les bases de données et dans les entrepôts de données. Avec DMX-h, l’idée est d’intégrer Hadoop à cette équation et de décharger ces tâches vers le désormais incontournable framework Open Source.

Il faut ajouter que l’un des chevaux de bataille de Syncsort est bien de rapprocher deux mondes qui n’étaient pas fait pour se connaître : le mainframe et le Big Data avec Hadoop. Un souhait des entreprises nous avait expliqué Stéphane Heckel, EMEA Partner Manager chez Syncsort en France, motivé notamment par des problématiques d’optimisation des coûts ainsi que par la migration et l'offload des données et des applications vers des infrastructures plus modernes et moins coûteuses à maintenir.

Pour mettre en musique sa stratégie autour du Big Data, la société avait certes ré-organisé ses activités en se séparant de celles liées à la protection et à la sauvegarde des données, mais également en rachetant Circle Computer Group en octobre 2013, un spécialiste de la migration d’applications. En fait, avec la technologie de Circle, seules les données migrent, via l’ETL Hadoop de Syncsort qui gère les procédures entre les deux mondes.

C’est justement cet ETL pour Hadoop que Syncsort a aujourd’hui renforcé en proposant désormais de mieux cartographier et de mieux planifier ses opérations d’ETL. A la clé, le projet SILQ (aujourd’hui en Technology Preview), « une technologie [Web] d’offload d’entrepôt de données qui analyse les scripts SQL et fournit une visualisation détaillée et graphique de l’ensemble du flux de données et donne les bonnes pratiques à mettre en place pour développer les jobs DMX-h adéquats dans Hadoop », explique Syncsort dans un communiqué. Une façon de mieux comprendre et d’ajuster ses opérations de données.

« Hadoop étant sur la voie de la maturité, les professionnels cherchent à migrer de plus en plus de workloads vers le framework Open Source, depuis des entrepôts de données et autres systèmes legacy. Mais identifier les meilleures workloads pour la migration et les porter vers Hadoop ne sont pas des opérations triviales », indique Jeffrey F. Kelly, du cabinet d’analyste Wikibon, cité dans un communiqué. Des tâches que SILQ devrait donc simplifier.

Dans cette même logique, qui consiste aussi à simplifier l’usage de l’ETL sur Hadoop, Syncsort a également annoncé l’intégration à Tableau qui permet de porter la manipulation de l’outil du groupe auprès des départements métiers, qui pourront ainsi extraire et agréger des données dans un environnement multi-sources. Et de créer des tableaux de bord et des visualisations de données.

Côté déchargement vers Hadoop, Syncsort annonce une intégration renforcée avec HP Vertica, une amélioration de la sécurité de l’accès aux données mainframe ainsi qu'Hadoop Development Kit. Ce dernier propose un langage (Data Transformation Language – DTL) qui permet de développer des process d’ETL et d’offload, sans de grosses compétences en programmation, promet Syncsort.

Contribution au projet Apache Sqoop

Les technologies liées au Big Data étant fortement liée à l’Open Source et à l’ouverture, Syncsort a également profité de l'Hadoop Summit pour annoncer sa contribution au projet Apache baptisé Sqoop. Un projet Open Source clé pour un acteur de l’intégration de données comme Syncsort : ce projet crée une passerelle transparente entre Hadoop et le monde plus traditionnel des bases de données relationnelles en facilitant le déplacement et la migration des données entre les deux. Sqoop est sorti de l’incubateur Apache en mars 2012. Pour Syncsort, l’idée est d'apporter son expertise en matière de mainframe. La société entend ainsi contribuer au projet la capacité de transférer plusieurs jeux de données mainframe en parallèle vers Hadoop et de les stocker dans un format supporté par Sqoop. Cette interface ouverte pourra également recevoir le support d’autres formats de données issues du mainframe, afin de pouvoir manipuler et déplacer toutes les données spécifiques de ces systèmes Legacy. Cette interface sera par ailleurs incluse à la prochaine version de DMX-h.

Ce n’est pas la première contribution de Syncsort à une communauté Open Source. La société a développé un patch à Hadoop qui permet d’implémenter un moteur de tri alternatif – le sien donc – au moteur de tri par défaut. Le moteur se retrouve désormais pré-cablé dans le framework Open Source, les entreprises étant libres de l’activer ou pas. Cloudera, Pivotal et Hortonworks l’ont intégré dans leur distribution. MapR a quant à lui certifié DMX-h pour sa distribution. Une façon pour eux de créer un lien direct avec le monde du mainframe.

Syncsort enrichit son ETL pour Hadoop

Pour approfondir sur Big Data et Data lake

Azure HDInsight

Hadoop ou la force d’un écosystème

La qualité des données progresse au rythme des systèmes Big Data en production

Syncsort et Trillium veulent bannir les « Data Swamps »