agsandrew - Fotolia
AWS lance (enfin) sa base de données Time Series en disponibilité générale
AWS a annoncé la disponibilité générale d’Amazon TimeStream, une base de données de séries chronologiques entièrement gérées. Le service doit répondre à des cas d’usage tels que la supervision IT ou encore le stockage et le traitement de données IoT.
Lors de l’AWS reInvent 2018, le géant du cloud avait présenté une base de données Time Series. Deux ans plus tard, Amazon Timestream est lancé en disponibilité générale. Ce délai plus long qu’à l’accoutumée a provoqué des moqueries d’un concurrent et des doutes chez certains internautes qui se demandaient si le service n’était pas un vaporware. Timestream n’était accessible qu’en bêta privée.
Selon Shawn Brice, vice-président bases de données chez AWS, le fournisseur a collaboré avec les clients ayant souscrit à la préversion pour répondre à leurs prérequis opérationnels. Une base de données de séries chronologiques se doit d’être particulièrement robuste pour ingérer des milliers de points de données à la seconde. Selon AWS, Timestream serait capable d’enregistrer les informations à la nanoseconde près. Le fournisseur affirme que Timestream est 1 000 fois plus rapide qu’une base de données relationnelle tout en indiquant qu’elle collecte les données en quasi-temps réel.
Ces informations sont, pour l’instant, difficilement vérifiables : nous n’avons pas trouvé de benchmark sur le Web. Par ailleurs, il semble plus pertinent de comparer des SGBD Time Series entre eux. Une base de données relationnelle ne dispose généralement pas des mêmes caractéristiques et ne répond pas aux mêmes cas d’usage.
Deux ans pour concevoir Timestream
Concernant la collecte de données, Timestream se connecte aux services de collection de données Amazon Kinesis, l’agent open source Telegraf ou encore AWS IoT Core. Pour utiliser le service de streaming MSK, il faut passer par Apache Flink. AWS fournit un SDK pour gérer d’autres sources de données. Des connecteurs JDBC permettent de les transmettre aux couches de visualisation, d’analytique et de machine learning Grafana, SageMaker et QuickSight.
Timestream doit aussi profiter d’un système de stockage adapté à l’ingestion rapide de données. Les dernières informations entrantes sont stockées en mémoire (au maximum pendant 6 jours) et répliquées dans trois régions cloud, tandis que les plus anciennes sont placées dans un espace de stockage magnétique selon une politique de rétention automatique, établie via des règles par l’administrateur.
Ce stockage magnétique est basé sur Amazon S3 et peut stocker des données pendant 200 ans (il existe également une option SSD). Pour l’instant, AWS n’a pas précisé s’il est possible d’interconnecter Timestream et le service de sauvegarde et d’archivage Amazon Glacier.
Le fournisseur cloud insiste sur l’architecture serverless de sa TSDB (en anglais, Time Series Data Base), à l’instar de celle d’Aurora ou de DynamoDB. Ce choix permet de découpler l’ingestion, du stockage, du moteur de requêtes type SQL. Cela permettrait une mise à l’échelle indépendante des différentes briques.
Contrairement à d’autres TSDB disponibles sur le marché, le service d’AWS dispose d’un modèle de données (schéma) dynamique. L’utilisateur n’a pas à paramétrer un schéma avant de lancer la collecte de données, Timestream détecte automatiquement jusqu’à 128 dimensions (colonnes) et le type de métriques ingérées (BIGINT, BOOLEAN, VARCHAR, String et DOUBLE). Le moteur de requêtes, lui, est un dérivé d’Apache Presto.
Les bases de données Time Series ont la cote
Selon Merv Adrian, vice-président de la recherche sur les données et l’analyse chez Gartner, l’utilisation des bases de données de séries chronologiques suscite un intérêt croissant.
« Nous voyons un nombre croissant d’organisations dans les services financiers, la fabrication et d’autres industries, développer des systèmes de traitement d’événements basés sur l’ingestion de grandes quantités de données de séries chronologiques, avec des exigences de fonctions analytiques intégrées rendant plus simple l’identification de tendances et de modèles, que ce qui est possible avec des produits non spécialisés », déclare Merv Adrian.
L’analyste ajoute qu’il s’attend à ce qu’Amazon Timestream fasse concurrence à InfluxDB et QuasarDB, car AWS utilise ses capacités de mise à l’échelle automatique et d’intégration avec d’autres offres de son catalogue.
Seulement, et contrairement à ces deux concurrents, AWS propose là un service propriétaire qui complique la réversibilité et la portabilité. Les premiers utilisateurs ont déjà noté le produit sur G2. Ils saluent unanimement les performances et la qualité de la base de données de séries chronologiques, mais soulignent la complexité inhérente à la gestion des données temporelles ainsi que le manque d’intégration native avec certains systèmes et outils.
Timestream est davantage un complément aux services AWS comme IoT Greengrass ou Lambda. Enfin, les utilisateurs évoquent une tarification élevée. Sur le papier, elle est pourtant plus abordable que celle pratiquée par InfluxData ou Microsoft pour des services similaires.