Trois questions à Kevin Davis, responsable entrepôt de données chez Adobe
Alors qu’il bataillait pour charger des données Hadoop dans Hana, Adobe a étudié SAP Data Services et Sqoop avant de choisir le premier. Kevin Davis,d'Adobe, revient sur ce choix.
Alors qu’il bataillait pour charger des données Hadoop dans SAP Hana, l’éditeur Adobe a réfléchi à utiliser SAP Data Services et Sqoop, une solution Open Source conçue pour transférer des données entre Hadoop et les bases de données relationnelles, avant de retenir le premier. Kevin Davis, ingénieur entrepôt de données chez Adobe, revient sur ce choix.
Afin de mieux comprendre ses utilisateurs, Adobe a mis en place un système qui suit leur comportement, la dernière mise à jour téléchargée ou encore leur fréquence d’utilisation hebdomadaire, des logiciels du groupe. Ces données sont stockées dans Event Tracing System, un data store Hadoop. Ce système capture plus de 3 millions d’événements par jour, explique Kevin Davis, ingénieur entrepôt de données chez Adobe.
L'diteur cherchait à injecter toutes ces données dans son système SAP Hana pour effectuer des analyses avancées, mais pour cela, il devait s’équiper du bon outil d’ETL. Au final, il a étudié SAP Data Services et l’outil Open Source Sqoop, avant d'opter pour la solution de SAP.
Pourquoi avez-vous décidé d’utiliser Hana Data Services par rapport aux autres outils d’ETL pour charger vos données Hadoop dans SAP Hana ?
Kevin Davis : Le département IT avait vu Data Services comme une forme de standard, comparé aux autres outils d’ETL. Nous disposons de nombreuses sources de données SAP et Hana est notre principal moteur analytique. La connectivité native entre Data Services et ces autres sources SAP et Hana faisait de la solution SAP un ETL de choix. Nous n’avons même pas comparé Data Services à Informatica ou Pentaho, ni même aux autres. Nous disposons d’un environnement vraiment SAP ; utiliser une solution SAP faisait sens. Si nous rencontrons un problème dans une phase d’intégration, nous pouvons ouvrir un ticket et toute personne susceptible d’intervenir sur le système pour résoudre le problème travaille dans la même entreprise.
Lorsque nous avons considéré Sqoop, il a fallu composer avec des questions sur la maturité de la solution et avec le fait que de nombreux développeurs étaient déjà accoutumés à Data Services. Ils pouvaient utiliser la même méthode de développement qu’ils utilisaient pour obtenir les données des autres sources. Ils n’avaient pas besoin d’apprendre une nouvelle technologie.
Quelle a été votre principale difficulté dans l’utilisation de SAP Data Services pour charger des données Hadoop dans Hana ?
Kevin Davis : L’une des plus grosses difficultés est la compatibilité des versions. La communauté Open Source autour de Hadoop avance très rapidement. L’année dernière, Cloudera a présenté sept versions majeures de son infrastructure Hadoop. Tandis que vous avez seulement deux services pack par an de Data Services, il est évidemment difficile pour Data Services de suivre.
Quels sont projets autour de Hadoop et Hana ?
Kevin Davis : Nous envisageons de mettre à jour toute notre infrastructure – Hana, Data Services et Hadoop - d’ici les deux prochains mois afin d’être aligné sur les dernières versions. Et comme nous avons désormais résolu notre problème d’injection des données Hadoop dans Hana, nous savons qu’il existe d’autres scenarii qui reposent sur l’usage de données Hadoop. Pour gagner en visibilité et les utiliser dans des modèles analytiques ainsi que dans des tableaux de bord, par exemple. Nous allons ainsi continuer à déployer des cas d’usage sur ces mêmes modèles de filtre et d’agrégation de données Hadoop dans Hana.
Traduit et adapté par la rédaction