Sergey Nivens - Fotolia
IBM fait la démo d’un moteur MPP à DashDB
IBM a intégré le support du traitement massivement parallèle et du langage R à DashDB. Deux étapes clés pour cette solution d’entrepôt de données façonné pour les environnements distribués dans le Cloud.
Tout à sa stratégie de peaufiner son portefeuille de services de bases de données dans le Cloud, IBM a mis à jour son système d’entrepôt de données relationnel, DashDB. Au programme le support du traitement massivement parallèle (MPP – Massively Parallel Processing) entre plusieurs clusters et celui de R. Des démonstration de ces technologies ont été réalisées dans le cadre d’un événement qui s’est tenu la semaine dernière à Boston (IBM Cloud Data Boot Camp).
Sortie à l’automne dernier, DashDB repose sur la technologie de traitement In-Memory de Big Blue, BLU Acceleration, extrait de DB2. La solution y associe IBM Netezza, portant la solution pour des déploiements dans le Cloud. En tant que tel, DashDB est conçue pour être un concurrent d’AWS Redshift, le service d’entrepôt de données d’AWS lancé à la fin 2012.
Comme les autres spécialistes des bases de données relationnelles, IBM a dû apporter sa réponse face aux nouvelles solutions du Cloud, et surtout celles d’AWS. Le mois dernier, IBM a annoncé une version MPP de DashDB dont la vocation est d’accélérer le requètage et d’améliorer les capacités de dimensionnement.
De son côté, l’intégration de R à la base est considérée comme un plus. En témoigne un utilisateur rencontré lors de l’événement. « Selon nous, DashDB est une base de données en colonnes avec des fonctions de DB2 et qui intègre R », explique Shiv Sehgal, architecture logiciel au sein de la société américaine RSG Media, qui développe des applications pour les réseaux de télévision, les éditeurs et les médias. Interrogé sur la question Shiv Sehgal a confirmé que faciliter l’accès à R est une étape importante pour les utilisateurs métier qui ont la capacité de réaliser des analyses sans avoir à se tourner vers l’IT.
Un pilier de la stratégie Cloud
Le lancement de DashDB s’est fait progressivement, mais la technologie pourrait bien symboliser les espoirs d’IBM en matière de gestion des données dans le Cloud. Avec ce support de MPP, DashDB pourrait représenter une passerelle vers le Cloud pour les utilisateurs de DB2 et de l’appliance d’entrepôt de données Netezza.
« MPP est vraiment un grand projet. Grâce à lui, vous pouvez ajouter des nœuds lorsque votre entrepôt de données en a besoin », explique John J. Park, chef de produit DashDB chez IBM. « D’un point de vue stratégique, il s’agit de l’offre Cloud pour supporter nos clients Netezza et DB2. »
Selon lui, la compatibilité de DashDB avec l’implémentation du langage SQL de Netezza doit encore évoluer. Il estime que les capacités SQL de Netezza sont actuellement couvertes à 84% dans DashDB, ajoutant qu’IBM vise une compatibilité de plus de 90%, plus tard dans l’année.
Ces évolutions de DashDB sont en ligne avec le rachat par IBM de Compose, une société américaine anciennement connue sous le nom de MongoHQ. Compose est spécialisée dans l’applicatif qui automatise les opérations de configuration, d’administration et de dimensionnement des bases de données dans le Cloud. Il supporte une longue liste de bases de données, comme MongoDB par exemple et devrait inclure Elasticsearch, PostgreSQL et Redis.
L’un des objectifs de ce rachat de Compose est de permettre aux développeurs de démarrer rapidement des instances de bases de données dans le Cloud. Compose et DashDB sont accessibles via Bluemix et font partie d’un portefeuille grandissant de services de bases de données Cloud du groupe. La stratégie de gestion des données dans le Cloud d’IBM a démarré l’année dernière avec le rachat de Cloudant. La base NoSQL de Cloudant a été spécialement développée pour cibler les problèmes de dimensionnement et de déploiement des bases relationnelles dans un environnement Cloud.
En plus de DashDB, RSG Media utilise Cloudant presque comme un data lake pour préparer les données à des analyses, affirme Shiv Sehgal. « Le point clé est ses capacités de dimensionnement. Elle peut supporter un volume important d’utilisateur. »
Combiner NoSQL et entrepôt de données dans le Cloud
« L’association d’une base de données NoSQL à un entrepôt de données SQL au sein du portefeuille Cloud d’IBM crée une forme de ciment entre services », soutient-il. « Certaines de nos applications nécessitent des données liées aux ventes de pub, aux données Twitter et à toutes sortes d’autres données. Pour au final établir un lien avec les performances d’un show télévisuel, nous devons aussi avoir une approche SQL. » Avec le Cloud, « nous pouvons avoir tout, dans un unique espace », confirme-t-il.
Selon une étude de Research and Markets publiée en janvier, le marché mondial des services de gestion des données dans le Cloud doit progresser à un rythme annuel moyen de 30,5%. De 3,51 milliards de dollars en 2014, il devrait atteindre 13,28 milliards en 2019.
Jusqu’alors, le traitement Big Data dans le Cloud a aussi été l’affaire de start-ups, évoluant en dehors du modèle relationnel. Mais à l’image d’IBM, les acteurs bien établis du monde des bases de données ont décidé de contre-attaquer. Oracle a développé une plateforme de service de bases de données qui comprend une version Cloud de NoSQL Database. De plus, la dernière version d’Oracle Database 12c supporte le stockage de documents et les requêtes SQL sur des fichiers JSON, un format très utilisé dans le monde de la mobilité, du Cloud et du Web. De son côté, Microsoft a aussi lancé DocumentDB, une base NoSQL qui s’exécute sur Azure.