Datastax : Le modèle graphe dans les starting-blocks
A l’occasion du DataStax Day Paris, le spécialiste de Cassandra détaille le modèle graphe qui débarque avec la version 5 de son offre Entreprise.
A partir du 28 juin prochain, un modèle de graphe sera associé aux éditions Entreprise de la version 5.0 de la base de données de DataStax, portant Cassandra, cadre Open Source du mouvement NoSQL, vers de nouveaux horizons. LeMagIT a profité du Datastax Day qui s’est tenu cette semaine à Paris pour en savoir un peu plus sur cette décision et comment cela entre dans la stratégie de Datastax.
Datastax a bâti son modèle sur le développement de composants destinés aux entreprises qui reposent au-dessus de Cassandra. Une base issue du mouvement NoSQL, née chez Facebook, et depuis hébergée au sein de la Fondation Apache.
Comme ont pu le préciser les intervenants de la conférence DataStax Day, Cassandra est connue pour ses performances pour manipuler de grands volumes de données. Elle s’appuie sur un modèle d’architecture spécifique qui repose sur une répartition des données sur un cluster dit Masterless, chaque nœud étant indépendant. Haute-disponibilité, scalabilité linéaire et rapidité de traitements sont des caractéristiques intrinsèques qui la destine à des applications dits cloud natives, comme a pu le préciser Robin Schumacher, VP Produit chez Datastax. Ce socle et des spécificités serviront donc de base au prochain modèle graphe de DataStax.
« Cassandra s’occupe très bien des données tabulaires. Mais quand il y a des relations entre les données, les systèmes de gestion de base de données sont une sous-catégorie de ce que l’on peut représenter avec les graphes », explique Jonathan Ellis, le CTO et co-fondateur de DataStax, dans un entretien avec la rédaction.
« Pour les relations nouées dans les media sociaux comme LinkedIn, là où les utilisateurs peuvent interagir, on a la possibilité de décrire ces relations », explique-t-il.
Le modèle en graphe de DataStax s’appuie sur le projet Titan. Un projet de base en graphe distribuée qui avait déjà un niveau de compatibilité élevé avec Cassandra. «Les nœuds peuvent stocker les données de Cassandra, HBase ou encore BerkeleyDB ». Mais selon lui, s’il est certes utile de pouvoir disposer de plusieurs backends, « on y perd en termes de performances, car cela n’est pas conçu pour tirer profit du maximum de performances de Cassandra », ajoute-t-il. En somme, en étant générique, on perd en optimisation. D’où l’idée de Datastax de rapprocher beaucoup plus étroitement Cassandra et Titan. « DataStax a ainsi rapatrié l’équipe derrière Titan, qui a travaillé pendant un an à créer une base de données en graphe, optimisée pour Cassandra », raconte Jonathan Ellis, expliquant la génèse de DES-Graph – le nom officiel du produit.
DSE-Graph se place ainsi au-dessus de Cassandra et en exploite toutes les spécificités. « Elle connait très bien l’architecture de Cassandra et reconnait la façon dont sont réparties les données dans les partitions Cassandra pour proposer des temps de latence très faibles », assure-t-il.
Supporter plusieurs modèles de données
Steve van den Berg, Regional VP pour l’Europe de l’Ouest chez DataStax, ajoute à son tour que la société avait aussi ajouté au- dessus du modèle tabulaire et clé/valeur, le modèle JSON. Avec le modèle graphe, DataStax veut donc doter Cassandra une structure qui supporte plusieurs modèles de données. Mais sans compromettre, encore une fois, les caractéristiques de Cassandra. D’ailleurs, cette option en graphe est aussi intégrée à d’autres produits de la société, comme DSE Search ou DSE Analytics. « On peut ainsi rechercher des données et effectuer des requêtes analytiques sur DES-Graph », note-t-il.
S’ouvrir à d’autres marchés ?
Si selon Jonathan Ellis, les clients actuels de DataStax semble intéressés par cette option en graphe, il apparait aussi que d’autres y voient un certain intérêt. Exposant ainsi la base de données et DataStax à de nouvelles perspectives de marché : les utilisateurs sans données tabulaires n’ayant donc pas considéré Cassandra.
DataStax Enterprise équipe aujourd’hui 5 des 6 premières banques en France. Selon Jonathan Ellis, la France représente le 2e marché de DataStax en Europe, après le Royaume-Uni, mais avant l’Allemagne. « Mais nous avons davantage de développeurs et d’ingénieurs en France », commente-t-il.
On est également bien positionné dans la distribution, dans les transports, dans l’hospitalité et dans les telécoms, explique à son tour Steve van den Berg. Le modèle graphe pourrait bien leur servir pour l’analyse des anomalies par exemple, comme la détection de fraude. DES-Graph peut ici apporter une approche visuelle. Le secteur public (en Europe) serait aussi intéressé, nous confie-t-il.
Questions sur le modèle de tarification au nœud
Si les performances de Cassandra sont liée à la bonne distribution des données sur les noeuds d’un cluster Cassandra – un argument mis en avant lors de cet événement - , Datastax applique un modèle de tarification de son édition entreprise au nœud. Ce qui reste quelque peu conflictuel.
« Nous n’avons pas trouvé encore de meilleurs moyens. Nous savons que facturer au nœud pose problème. Je vais vous donner un exemple : lorsqu’un de nos ingénieurs se rend chez un client et affirme que le projet est trop lent et nécessite plus de nœuds. Le client répond alors : vous souhaitez que l’on ajoute plus de nœuds parce que vous facturez au nœud. Il existe bien un conflit sur ce sujet. Mais nous n’avons pas trouvé de meilleures options », a expliqué Jonathan Ellis, le CTO et co-fondateur de DataStax.
Steve van den Berg pense de son côté que ce modèle est pourtant équilibré, « car il apporte des possibilités de dimensionnement linéaire ».
Mais au final, quand on connait les prix d’Oracle ou d’IBM en la matière, le pricing de DataStax peut sembler bien plus léger, rapporte en substance Julien Dubois, Chief Innovation Officer, chez Ippon, présent sur l’événement.