agsandrew - Fotolia
InfluxData finalise ses produits basés sur InfluxDB 3.0
Le spécialiste de données de séries temporelles peaufine les caractéristiques de son moteur sous-jacent et a pratiquement terminé le lancement de ses produits s’appuyant sur InfluxDB 3.0.
InfluxData a dévoilé, mercredi, de nouvelles fonctionnalités pour sa suite de produits InfluxDB 3.0 visant à accélérer et à simplifier la gestion des données de séries temporelles à l’échelle, y compris des améliorations de performance et un nouveau tableau de bord opérationnel.
En outre, l’éditeur a annoncé la disponibilité générale d’InfluxDB Clustered, une version self-managed de sa base de données pour les déploiements sur site et dans les clouds privés, dévoilée pour la première fois en septembre 2023.
Basé à San Francisco, InfluxData est un spécialiste des données de séries temporelles, créateur d’InfluxDB, une base de données « TSDB » open source.
L’éditeur a levé 81 millions de dollars en février 2023, ce qui porte son financement total à plus de 200 millions de dollars. Deux mois plus tard, InfluxData a dévoilé InfluxDB 3.0. La suite de produits comprend InfluxDB Cloud Serverless et InfluxDB Cloud Dedicated, tous deux gérés par InfluxData, et maintenant InfluxDB Clustered pour les utilisateurs self-managed.
L’une des principales mises à jour d’InfluxDB 3.0 a été l’activation de la « cardinalité illimitée », qui fait référence à l’unicité des valeurs dans une colonne de base de données. Une colonne d’une base de données à cardinalité élevée peut accueillir un grand nombre de valeurs uniques par rapport au nombre d’enregistrements. Dans une TSDB, ces valeurs uniques peuvent être des labels (tags) permettant d’analyser des séries temporelles.
InfluxDB 3.0 est le résultat d’une refonte complète du moteur sous-jacent, s’appuyant sur Apache Arrow et Apache DataFusion.
Parmi les autres améliorations clés, citons un débit élevé accordant aux utilisateurs la possibilité d’ingérer, de transformer et d’analyser des centaines de millions de points de données par seconde. Et permettant aussi des temps de réponse aux requêtes en temps réel nettement plus rapides, une compression accrue des données pour réduire les coûts de stockage et la prise en charge du langage SQL pour simplifier l’analyse.
« Les [clés] sont la taille et la vitesse », déclare Carl Olofson, analyste chez IDC. « Le domaine des séries temporelles est devenu très compétitif ces dernières années. InfluxData cherche clairement à se démarquer, en réalisant qu’à mesure que les utilisateurs développent des réseaux plus complexes de sources de données – y compris des appareils périphériques –, le défi d’appliquer une seule analyse à toutes ces données devient insurmontable ».
InfluxData bichonne le moteur d’InfluxDB 3.0
Carl OlofsonAnalyste, IDC
La dernière mise à jour porte sur l’amélioration des performances et la simplicité d’utilisation. Elle renforce la prise en charge de la simultanéité des requêtes et de la mise à l’échelle afin de mieux gérer les données à cardinalité élevée.
Pour cela, le partitionnement personnalisé doit permettre aux développeurs de décider de « la manière dont les données sont regroupées dans les fichiers Apache Parquet sous-jacents ». Ce partitionnement est par défaut journalier, mais il est possible de labéliser les partitions suivant le type de données et la fréquence d’interrogation.
InfluxData a par ailleurs contribué à Apache DataFusion afin d’améliorer l’agrégation parallèle et le traitement des données de type strings. Les gains de performance promis sont significatifs.
En outre, InfluxDB 3.0 dispose désormais d’un nouveau tableau de bord opérationnel. Il fournit des informations visuelles sur les performances et la santé des clusters de données afin que les développeurs puissent faire face aux changements involontaires de la charge de travail, identifier les goulets d’étranglement et optimiser les performances.
Un mécanisme d’authentification doit rationaliser le processus de connexion. « En connectant votre fournisseur d’identité au service Auth0 géré par InfluxData, vous pouvez facilement accorder ou révoquer l’accès à votre cluster InfluxDB, comme vous le feriez pour n’importe quel autre système », promet l’éditeur.
Enfin, de nouvelles API ont été ajoutées pour permettre aux utilisateurs d’automatiser certaines tâches, dont le déploiement d’instances InfluxDB, la création de bases de données avec des partitions personnalisées ou l’accès aux bases par les développeurs.
Selon Carl Olofson, ces nouvelles fonctionnalités s’ajoutent à celles qui composent initialement InfluxDB 3.0 et visent à aider InfluxData à se démarquer sur un marché concurrentiel. Parmi les autres spécialistes des bases de données de séries temporelles figurent Grafana et Prometheus, tandis que les géants de la technologie AWS, Google, IBM et Microsoft sont parmi les autres à proposer des bases de données de séries temporelles.
Rachel Stephens, analyste chez Redmonk, remarque qu’historiquement les bases de données time series ont toujours eu du mal avec les charges de travail à cardinalité élevée. Si InfluxData respecte sa promesse, il pourrait avoir un boulevard sur le marché.
InfluxDB Clustered remplacera InfluxDB Enterprise
Alors que la mise à jour d’InfluxDB 3.0 porte sur les performances, le lancement d’InfluxDB Clustered étend les capacités du moteur de base de données à un plus grand nombre d’utilisateurs de l’éditeur.
Lors de sa sortie initiale, InfluxDB 3.0 n’était disponible que pour les utilisateurs d’InfluxDB Cloud Serverless et Cloud Dedicated, qui sont tous deux des services de base de données entièrement gérés. Les utilisateurs de bases de données sur site et de clouds privés ne disposaient que d’InfluxDB Enterprise, qui n’a pas été conçu avec le moteur d’InfluxDB 3.0.
InfluxDB Clustered vise à remplacer InfluxDB Enterprise. Son importance réside donc dans le fait qu’il offre aux clients sur site et en cloud privé les mêmes capacités que les utilisateurs des bases de données entièrement gérées d’InfluxData, selon Rachel Stephens.
« InfluxDB Clustered est le produit qui succède à InfluxDB Enterprise », explique-t-elle. « InfluxDB Clustered apporte le moteur de base de données en colonnes aux environnements autogérés des clients ».
InfluxDB Clustered peut être déployé à l’aide d’un Helm chart sur Kubernetes. Selon l’éditeur, l’ingestion, l’interrogation et les tiers de stockage « sont totalement découplés », ce qui permettrait la montée à l’échelle indépendante de ces composants clés.
Les améliorations apportées à InfluxDB 3.0 et le lancement d’InfluxDB Clustered découlent de l’objectif d’InfluxData de fournir aux développeurs des outils leur permettant de gérer efficacement les charges de travail de séries temporelles à grande échelle, selon Gary Fowler, vice-président des produits de l’éditeur.
En particulier, il est essentiel de permettre aux développeurs de traiter de grands ensembles de données en temps réel, compte tenu de la demande croissante de prise de décision en temps réel.
« Les charges de travail ne cessant de croître, les développeurs ont besoin de systèmes sophistiqués capables de traiter de grands ensembles de données sans compromettre les performances », avance Gary Fowler. « InfluxDB 3.0 est conçu pour relever ces défis, en offrant les outils nécessaires pour gérer les données de séries temporelles à grande échelle ».
InfluxDB 3.0 propulsera une variante d’Amazon Timestream
La suite complète de produits InfluxDB 3.0 étant désormais disponible, la feuille de route d’InfluxData est axée sur l’ajout de nouvelles caractéristiques et fonctionnalités, selon Gary Fowler.
En outre, M. Fowler a indiqué que l’éditeur prévoit d’améliorer les performances d’Amazon Timestream for InfluxDB, une offre managée lancée en mars 2024 résultant du partenariat d’InfluxData avec AWS.
Actuellement, Amazon Timestream for InfluxDB est basé sur un moteur antérieur à InfluxDB 3.0, ce qui en fait une option pour les utilisateurs de logiciels libres ayant de petites charges de travail à faible cardinalité. InfluxData travaille pour le moment à l’intégration d’InfluxDB 3.0 dans Amazon Timestream for InfluxDB, ainsi qu’à l’ajout d’autres fonctionnalités qui ne sont pas encore disponibles pour les utilisateurs de logiciels libres.
« Ces améliorations permettront à nos utilisateurs de bénéficier d’une plus grande flexibilité, de meilleures performances et d’une plus grande sécurité lorsqu’ils gèrent leurs données de séries temporelles dans le cloud », avance-t-il.
Carl Olofson, quant à lui, a suggéré qu’InfluxData serait bien avisé de développer une version entièrement basée sur le cloud de ses bases de données managées, afin d’offrir un plus grand choix à ses clients. Toutefois, il ne suffit pas de créer une nouvelle version de sa base de données pour y parvenir, a-t-il fait remarquer.
« Pour une exécution efficace, cela peut nécessiter des accords spéciaux avec les fournisseurs de plateformes de cloud public », note-t-il.
Enfin, InfluxDB Edge, la version open source d’InfluxDB 3.0 est toujours en développement, malgré un retard conséquent. Si l’éditeur n’a pas communiqué officiellement sur la disponibilité de cette distribution, Paul Dix, cofondateur et CTO d’InfluxData, a déclaré le 23 juillet sur le forum communautaire de l’entreprise qu’elle devrait être disponible « à la fin de cette année ou au début de l’année prochaine ». « Nous y travaillons toujours. Cela prend un peu plus de temps que prévu, car nous travaillons en même temps sur une version commerciale qui s’associe à la version open source », affirme-t-il.