DataStax se dote officiellement d’un système de fichiers compatible HDFS

Pas question de remplacer Hadoop. DataStax veut toutefois préparer DSE à des cas d’usage types qui impliquent d’associer HDFS à Cassandra. Surtout cela entre dans la stratégie de la société qui entend désormais concentrer ses efforts de développements sur la seule base de clients de DSE.

DataStax, pilier de la communauté du NoSQL, a élaboré un système de fichier compatible HDFS qu’il vient officiellement de livrer, prêt à la production, dans la version 5.1 de DataStax Enterprise (DSE). Si cela fait partie d’un train de nouvelles fonction, ce système de fichiers, nommé DSEFS est en fait un des symboles du nouveau positionnement de la société en tant qu’éditeur. DataStax entend en effet concentrer ses efforts de développement sur sa base de clients DSE. Et de limiter donc le reversement de ses nouvelles fonctions à la communauté Cassandra.

DataStax proposait déjà un système de fichiers particulier, mis au point pour DSE : CFS pour Cassandra File System. « Ce dernier correspond en fait à un API HDFS au-dessus de tables Cassandra », résume Vincent Poncet, avant-vente chez DataStax.

Historiquement, DataStax a intégré très tôt le support de Hive à son édition Enterprise. « Hive MapReduce ancienne version nécessitait d’écrire des fichiers intermédiaires MapReduce. Pour cela, il avait une couche qui écrivait les blocs de fichiers dans les tables Cassandra », commente-t-il, ajoutant que cela fonctionnait pour apporter des outils analytiques au-dessus de Cassandra.

Sont arrivés Spark et Spark Streaming. « Pour gérer un flux continu de données, Spark streaming a besoin de stocker des données de façon persistante et régulière (des checkpoints en fait, il stocke l’était d’un flux, NDLR). Il s’appuie pour cela sur un système de fichiers distribués, HDFS », ajoute Vincent Poncet.  Cela était donc compatible avec CFS, mais rencontrait certains problèmes, notamment liés à la haute-disponibilité.

Les ingénieurs ont donc travaillé à répondre spécifiquement à ces besoins et ont inclus DSEFS dès la version 5.0 de DSE mais dans une version Beta.  Initialement cantonné à ce mécanisme de stockage des checkpoints Spark Streaming, aujourd’hui disponible, DataStax le présente comme une forme d’alternative à HDFS. Mais avec une particularité : ce système de fichiers reprend l’architecture Masterless de DSE (et Cassandra) – les métadonnées du système de fichiers sont stockées dans des tables Cassandra, les blocs de données sont quant à eux stockées sur le système de fichiers classique. Il faut le voir comme un Masterless HDFS, illustre en fait le responsable de DataStax. « Cela apporte un HDFS plus simple – on limite le nombre de serveurs ayant des rôles spécifiques - et plus disponible. »

Cela permet par exemple d’éviter d’avoir à migrer des données entre HDFS et DSE, un scenario souvent en place dans les entreprises selon la société, notamment pour des phases de préparations de données ou d’ETL par exemple. « Un HDFS était donc utilisé à côté pour pouvoir interagir avec DataStax. » Désormais cela est inclus à DSE.

Si DataStax rejette le fait d’avoir développé DSEFS pour remplacer purement Hadoop, cela élimine les intermédiaires entre Hadoop et NoSQL, et par extension les coûts opérationnels supplémentaires. Et indirectement, ce sont également d’autres cas d’usage pour  la stack DataStax, mais, sans s’étendre à la création de datalakes.

Un champ fonctionnel plus vaste pour couvrir l’expérience des clients

Ce système de fichiers illustre en fait une extension de la stratégie de DataStax. D’un fournisseur de base de données NoSQL, la société souhaite désormais se positionner sur les terres d’un fournisseur d’une technologie capable de répondre à la mise en place d’applications, dites modernes, centrées sur les clients et leurs interactions. Xavier Guérin, vice-président Europe de l’ouest de DataStax, parle ici de Customer Experience.

DataStax a construit petit à petit une solution globale via son offre DSE, avec pour objectif de proposer les outils pour motoriser les applications d’aujourd’hui : Front-end, transactionnel, moteur de recherche, stockage des interactions et moteur de recommandations, analytique, streaming et temps réel, liste DataStax, citant NetFlix comme l’un des symboles de cela. En France, la TV de rattrapage 6Play (groupe M6) est aussi motorisé par DES.

La société a également fait sa première incursion dans les bases de données graphes, DSE Graph, pour répondre à d’autres cas d’usages et proposer une autre façon de modéliser les données  Lancée avec la version 5 de DSE, DSE Graph dispose désormais (dans la 5.1 donc) d’un moteur de recherche dédié qui permet d’interroger les relations entre les données et les données elles-mêmes – via le langage de requête Gremlin de DataStax, issu d’Apache TinkerPop. DataStax Studio supporte désormais cette base dans sa version 2.0.

« Cette concentration du marché (autour de 5 principaux acteurs du monde NoSQL, NDLR) se traduit par une nécessité d’élargir le spectre fonctionnel proposé par chacun », résume Xavier Guérin.  Un phénomène également connu dans le monde Hadoop. MapR, qui historiquement décline une distribution du socle Java, propose désormais une plateforme vers  laquelle convergent plusieurs cas d’usage et outils (MapR-FS, MapR-DB, Spark pour faire du streaming). Un parallèle que dresse d’ailleurs Xavier Guérin, qui était en charge du business development, des partenariats et des alliances EMEA chez MapR, avant d’être nommé chez DataStax.

« On passe d’un marketing centré sur le produit à un marketing centré sur le client, avec des solutions qui vont proposer différentes expériences clients », explique-t-il. Connaissance du client, interactions temps réel, reconnaissance, autant de scenarii cités par le responsable.

Un changement de modèle, centré sur les usages des clients – et pas de la communauté

Surtout, et c’est un point important, cette approche vient aussi traduire un changement de modèle de la société dont la vocation première est d’assoir DataStax en tant qu’entité commerciale. L’idée : cultiver une base de clients de l’édition Entreprise, en leur réservant des fonctionnalités avancées.

Il faut dire que DataStax est passé par plusieurs étapes, précise Xavier Guérin : d’abord créer une base NoSQL viable autour de Cassandra, puis évangéliser la technologie et faire de Cassandra un standard du NoSQL en reversant les nouvelles fonctionnalités à la communauté.

Est arrivée l’heure de passer un autre cap, souhaité par le CEO, Billy Bosworth, l’année dernière : faire passer les clients DSE en priorité. « Tous ce qu’on va développer va servir d’abord nos clients DSE et une partie sera reversée à la communauté (par exemple, la correction de bugs, NDLR) », constate Xavier Guérin Jusqu’alors, c’était l’inverse. En clair, certaines fonctions seront désormais réservées aux seuls clients de DSE. Et de citer les fonctions liées aux performances, comme les capacités d’intégration à Spark, la recherche sur les graphes ou encore liées à la compaction – une fonction phase de la 5.1.   L’heure est à la transformation.

Pour approfondir sur Base de données

Close