Joshua Resnick - Fotolia

HPE pousse Vertica vers Spark, Hadoop et Kafka

HPE a décidé d’étendre le support de Kafka, Spark et Hadoop dans Vertica 8.0. Ce qui était attendu tant les environnements deviennent multi-technologiques.

HPE a dévoilé cette semaine une version de sa base de données analytique Vertica dont la particularité est d’améliorer la gestion des pipelines Kafka ainsi que l’intégration à Spark et Hadoop.

Cette version s’inscrit en fait dans la stratégie du groupe à s’adapter à un environnement de la gestion des données en pleine mutation. Un marché qui rappelons-le a vu nombre de projets Open Source s’installer et prendre le pas. 

Si, certes, Vertica pouvait déjà attaquer des données stockées dans Hadoop, cette version 8.0 permet aujourd’hui de le faire directement dans le cluster, évitant ainsi d’avoir à migrer les données avant traitement.

C’est dans la tendance, confirme d’ailleurs Carl Olofson, analyste chez IDC. Même si pour le moment, Hadoop est encore loin de remplacer des bases de données analytiques, comme Vertica. « Cela signifie surtout que vous pouvez étendre la portée de vos requêtes à d’autres données. Mais cela ne veut pas dire qu’Hadoop prend la relève », ajoute-t-il. « Il ne s’agit pas de choisir l’un ou l’autre. » 

En revanche, mieux connecter Vertica à Hadoop montre que deux moteurs de traitements peuvent cohabiter, explique l’analyste. Les performances de Vertica en matière de requêtage peuvent être « portées sur Hadoop, pour retourner des résultats valides dans l’environnement ». 

Attaquer directement les données Hadoop, ainsi que les nouvelles connexions de la base à Spark, ont en fait été intégrés pour permettre à Vertica de jouer aux côtés de Spark et Hadoop. Bien que moins matures, les outils Open Source sont utilisés pour une nouvelle génération d’analyse, qui porte sur des quantités pharaoniques de données. 

Dans cette même logique, HPE Vertica 8 propose aussi des outils de chargement des données plus rapides et la capacité à monitorer graphiquement les flux Kafka. Autre point important, la base comprend aussi des librairies de Machine Learning pré-intégrées. Notons aussi qu’un connecteur pour Spark permet d’échanger des données entre les environnements animés par le framework Open Source et la base HPE – HPE met d’ailleurs en avant les performances de ce connecteur.

Comme une suite logique, la base HPE supporte aussi le format de stockage de données Apache Parquet qui vient ainsi compléter le format ORC déjà en place.

Le marché des bases analytiques est surchargé

Les bases de données analytiques comme Vertica se sont multipliées ces 10 dernières années, positionnées comme une alternative aux bases traditionnelles généralistes et relationnelles mais dans des environnements analytiques ou d’entrepôts de données.

Bâties sur des architectures en colonne et parallélisées, ces bases sont Netezza, Greenplum, ParAccel, Teradata et consorts, en plus de Vertica. Ensemble, ces acteurs se sont démarqués en accélérant les capacités de requêtage, comparées aux bases de données en place et aux entrepôts de données. Logiquement, les ténors du secteur ont compris cela et ont mis la main sur certains des acteurs clés : IBM a ainsi racheté Netezza, EMC Greenplum et HP Vertica. 

Mais dans ce contexte, le marché des bases de données analytiques est devenu encombré et très concurrentiel – et les ventes n’ont aussi pas atteint les niveaux escomptés.  D’ailleurs certains ont dû céder. C’est le cas d’Actian qui a confirmé cette semaine avoir éteint Actian Analytics Platform - qui comprenait la base analytique de la marque Actian Matrix. La société se recentre sur la gestion des données opérationnelles et l’intégration de données. Actian Matrix s’adossait à la technologie de ParAccel, rachetée en 2013 – la même technologie qui motorise d’ailleurs AWS RedShift

Spark : le maillon nécessaire

Cette cohabitation de Vertica avec d’autres technologies se retrouve par exemple au sein de la société Etsy, une place de marché en ligne pour les artisans. Rafe Colburn, le directeur de l’ingénierie de la société, liste Kafka, AWS, Scalding (pour le Machine Learning), Hadoop MapReduce et Parquet parmi les technologies associées à Vertica. Inutile de dire que la société regarde aussi du côté de Spark.

Selon lui, la société dispose de la version 7.1 de Vertica et considère la 7.2. Chez Etsy, La base de HPE est utilisée pour le reporting financier, les tableaux de bord internes, entre autres.  La base a aussi permis d’améliorer les possibilités de requêtage sur l’activité clients – les données sont stockées dans une ancienne base PostgreSQL.

Il se dit intéressé par le support de Parquet dans la 8.0, un format que la société a déjà commencé à utiliser. « Parquet est un format de données d’avenir pour nous », explique-t-il, même s’il admet que dans le futur, il devra certainement supporter plusieurs autres formats de données.

Les possibilités de dimensionnement horizontal de Vertica ont aussi été bien accueillies, et cela n’était pas difficile à installer dans le datacenter de la société.  Les données ont pu être ingérées facilement, selon lui. Il confirme aussi que les améliorations du connecteur Spark – Vertica sont prometteuses en matière de performances.

Machine Learning : une alternative ? 

La concurrence des requêtes SQL a souvent été un point fort pour les bases de données analytiques comme Vertica. Là où elles risquent désormais de rencontrer de la résistance : le Machine Learning. Celui-ci se fraye un chemin parmi les grands acteurs du Web si l’on en croit certains analystes. 

Les bases de données analytiques ont pu se distinguer car à l’origine elles offraient un rapport prix / performances avantageux comparé aux bases de données en place et aux entrepôts de données SQL, explique Curt Monash, président de Monash Research.

« Elles offrent de bonnes capacités de dimensionnement (scale-out) sur plusieurs nœuds et certaines ont très vite fait le pari du mode colonne ou l’ont ajouté très tôt », commente-t-il.  Elles ont aussi dû baisser leurs prix et améliorer les capacités SQL, souligne-t-il. 

Dans un billet de blog, cet analyste a bien confirmé que ces systèmes excellaient encore dans la BI, pour des opérations complexes. Mais il laisse aussi entendre que d’autres outils, comme le Machine Learning, pourrait bien être plus judicieux avec Spark.

 

Traduit et adapté par la rédaction

Pour approfondir sur Outils décisionnels et analytiques