kentoh - Fotolia

MapR dote sa base NoSQL d’index secondaires

L’éditeur veut faciliter l’accès et le requêtage de grands volumes de données, stockées dans sa base NoSQL, MapR-DB.

Le mois dernier, MapR, un acteur historique du monde Hadoop a souhaité donner un turbo à la base de données NoSQL qui habite la plateforme de la marque. Dans sa version 6.0, présentée lors de la dernière édition de la Strata Conference de New York, MapR-DB supporte désormais les index secondaires de façon native, étendant ainsi les capacités analytiques de cette base.

MapR-DB est  une base en colonne (de type “wide column”), compatible avec les API HBase et qui a aussi la particularité de supporter le modèle Document et JSON en natif. En tant que composant de la plateforme globale de MapR (la Converged Data Platform), la base est également dotée de capacités de réplication multi-datacenters, et de fonctions de sécurité et haute-disponibilité avancées. Au sein de cette plateforme, MapR-DB est associé à un système de fichiers-maison, MapR-FS (aujourd’hui une offre à part entière au catalogue de l’éditeur), Hadoop, Spark, ainsi qu’un outil de traitement des flux en temps réel, notamment.

Optimiser les performances des requêtes

Mais si la volumétrie des données est devenue une composante clé des applications, les capacités analytiques doivent aussi évoluer, et les moteurs sous-jacents gagner en performances. Autant mieux présenter ces gros volumes de données pour en faciliter l’accès et l’analyse. C’est l’idée derrière la mise en place d’index secondaires dans MapR-DB. Pour schématiser, ces index secondaires créent d’autres “vues” des données que l’index primaire et viennent ainsi compléter ce dernier. Ces capacités d’index ont été revues pour être associées à des disques SSD et gonfler les performances.

Concrètement, dans le cas de très gros volume de données, “cela évite d’avoir à faire un full-scan de toutes les tables”, explique Tugdual Grall, évangéliste technique chez MapR. Cette intégration native permet désormais de se passer de systèmes tiers comme ElasticSearch ou encore SolR, complète également le site de l’éditeur.

Logiquement, ces capacités sont aussi couplées à Drill, le moteur SQL de la plateforme, qui sait désormais utiliser ces index, “sans avoir à copier les données”. De quoi optimiser les usages analytiques, et l’association à des outils de BI tiers. Ces index sont également exploitables via l’intégration de la version 2.0 des API JSON OJAI (Open JSON Application Interface) pour optimiser les capacités de requêtage sur les modèles Document. Cette v2 apporte une grammaire plus avancée et donc des capacités de triage optimisées, par exemple.

Pour Tugdual Grall, ce dispositif apporte “beaucoup de flexibilité dans la création d’applications”. Rappelons que les index secondaires étaient déjà supportés par MongoDB et Cassandra.

 

Pour approfondir sur Base de données