Confluent renforce sa sécurité et sa prise en charge d’Apache Flink
Confluent coche les cases sur sa feuille de route consacrée à la prise en charge d’Apache Flink. Au passage, il renforce ses options de sécurité et explique pourquoi il vient de mettre la main sur WarpStream.
Le spécialiste du streaming de données a dévoilé la semaine dernière la mise à jour Q3 2024 de sa plateforme cloud.
Cette annonce suit de près l’acquisition le 9 septembre de WarpStream par Confluent, un autre éditeur d’un service managé basé sur Apache Kafka.
Pour rappel, Confluent fournit principalement une plateforme de streaming de données basée sur Apache Kafka, une technologie open source développée par les cofondateurs de Confluent, Jay Kreps, Neha Narkhede et Jun Rao, alors qu’ils travaillaient chez LinkedIn. Kafka, qui a été lancé en 2011, permet aux utilisateurs d’ingérer et de traiter les données au fur et à mesure qu’elles sont produites en temps réel.
L’éditeur maintient deux offres principales : Confluent Cloud, un service managé en cloud, et Confluent Platform, un système self-managed.
Apache Flink, quant à lui, a été lancé en 2014. C’est un framework de traitement pour le streaming de données. Flink fournit une couche de calcul qui permet aux utilisateurs de filtrer, de combiner et d’enrichir les données au fur et à mesure qu’elles sont produites et traitées afin de favoriser l’analyse en temps réel.
En mars 2024, Confluent a dévoilé la prise en charge de Flink dans un service managé, sobrement intitulé Confluent Cloud for Apache Flink.
Lorsque Confluent a commencé à proposer Flink à ses clients, il l’a fait avec une API qui permettait aux développeurs de créer des flux de données à l’aide de SQL. Cependant, tous les développeurs ne connaissent ou n’apprécient pas forcément le langage d’instructions.
L’API Table, introduite avec la mise à jour Q3 2024, est un outil qui permet aux utilisateurs de Flink de développer des pipelines en écrivant du code Python ou Java.
Selon David Menninger, analyste chez Ventana Research (ISG), « c’est une étape logique ». Le choix est important lorsque les développeurs créent des environnements pour la gestion et l’analyse des données. Il faut éviter aux entreprises une forme d’enfermement propriétaire, leur permettre d’exploiter des outils spécifiques à une tâche et leur confier l’accès à des outils que les utilisateurs maîtrisent et préfèrent.
Par ailleurs, Confluent entend simplifier la gestion des schémas de données dans Flink en évitant si possible les conversions. En bêta ouverte, Flink SQL permet d’interroger des modèles d’IA, dont des algorithmes de machine learning et des LLM.
Plus de sécurité dans Confluent Cloud
Plus important selon l’analyste de Vantana Research, Confluent apporte de nouvelles fonctions de sécurité. Plus précisément, la plateforme de Confluent prend désormais en charge les réseaux privés pour Flink. Cette option est disponible sur AWS pour les clusters Enterprise et Dedicated. Les données traitées par la version managée de Flink ne transitent que par le réseau VPC déployé par le client. Confluent dit simplifier cette configuration, comme il l’a déjà fait pour les instances Confluent Kakfa.
En disponibilité limitée, l’éditeur propose également une option de chiffrement des champs de données côté client au sein des flux de streaming Kafka et Flink. Il s’appuie pour cela sur les KMS d’AWS, d’Azure, de GCP et d’HashiCorp (HCP Vault). Afin d’implémenter cette fonction dans les applications, plusieurs langages de programmation sont pris en charge, dont Java, Go, C#/.NET. L’arrivée de Node.js et Python est prévue pour bientôt. Cette option est accessible pour les entreprises ayant souscrit au package Stream Governance Advanced.
Le volume de données augmente à un rythme exponentiel. Il en va de même pour la complexité des données. Pour garantir la sécurité des informations sensibles, de nombreuses entreprises disposent d’environnements de stockage de données hybrides, les données les moins réglementées étant stockées dans des clouds publics, tandis que les données plus réglementées, telles que celles contenant des informations personnelles identifiables, sont conservées sur place ou dans des instances de cloud privé.
« Ce n’est peut-être pas très sexy, mais les nouvelles fonctions de sécurité, y compris les réseaux privés et le chiffrement des champs coté client, seront des ajouts bienvenus », affirme David Menninger. « Les entreprises accordent une importance accrue à la gouvernance, à la conformité et à la sécurité ».
Selon Jean-Sébastien Brunner, directeur de la gestion des produits chez Confluent, la décision d’inclure la prise en charge de l’API Table et les nouvelles fonctions de sécurité, ainsi qu’une extension pour la plateforme de développement Visual Studio Code (en accès limité pour Kafka, encore indisponible pour Flink), est le fruit d’une combinaison d’interactions avec les clients et de l’observation des tendances du marché.
En sus d’une boucle de rétroaction avec les utilisateurs après chaque mise à jour, l’éditeur s’assure que ses outils sont compatibles avec ceux proposés par des plateformes concurrentes telles que Cloudera, Aiven et les services d’ingestion de données en continu des géants tels qu’AWS, Google Cloud et Microsoft.
Enfin, en raison de son ancrage dans la communauté open source, Confluent tente de simplifier l’usage de Kafka et Flink, deux frameworks réputés pour leur complexité.
WarpStream fournit à Confluent une troisième option d’hébergement des flux Kafka
Selon Jay Kreps, PDG de Confluent, la mise à jour de la plateforme vise à répondre aux besoins des clients et aux tendances du secteur, tandis que l’acquisition de WarpStream a pour but d’élargir l’intégration de Confluent dans l’infrastructure de données des entreprises.
WarpStream a misé sur une approche différente, plus spécifiquement sur une architecture BYOC (bring-your-own-cloud) qui permet aux utilisateurs de déployer la plateforme de données en continu dans leurs instances cloud, plutôt que dans celles d’un fournisseur.
D’une certaine manière, le BYOC est similaire à la prise en charge du réseau privé de Confluent pour Flink. Cependant, en tant qu’architecture native, il s’agit d’une fondation plutôt que d’un ajout.
« Notre objectif est de faire du streaming de données le système nerveux central de chaque entreprise », répète Jay Kreps. « Pour y parvenir, nous devons faire en sorte qu’il soit parfaitement adapté à un large éventail de cas d’usages et d’entreprises. Ce qui a retenu notre attention, c’est leur approche de nouvelle génération des architectures BYOC ».
David Menninger note que certains fournisseurs offrent un service cloud géré ou une option « self managed » qui peut être exécutée dans le cloud. D’autres éditeurs, plus matures, proposent les deux. Les deux options présentent des avantages et des inconvénients. Par exemple, les versions managées dans le nuage réduisent les charges de gestion, mais peuvent être coûteuses. Les versions self-managed sont parfois moins chères, mais requièrent plus de main-d’œuvre.
WarpStream offre un troisième choix. « WarpStream offre une option intermédiaire », considère David Menninger. « Les entreprises peuvent se décharger d’une partie des tâches de gestion et d’administration tout en conservant un certain contrôle ».
Plus précisément, WarpStream offre une solution proche de l’offre Hybrid Deployment de Fivetran. Le Control Plane sera géré par Confluent, tandis que les clients devront déployer le data plane sur leurs serveurs et gérer leur VPC. Néanmoins, Confluent reconnaît que cette option dispose d’options de transformation plus limitée, qu’il faut gérer Kafka Connect « à la maison » et qu’elle est (en tout cas pour l’instant) plus adaptée aux cas d’usage « non opérationnels », comme la collecte de logs et l’observabilité. WarpStream se distingue aussi par son mécanisme d’écriture « direct » dans les espaces de stockage objet S3.
La conformité des données, une priorité (des clients)
Selon Jean-Sébastien Brunner, Confluent prépare les futures mises à jour de sa plateforme en continuant d’ajouter des fonctionnalités de sécurité et de mise en réseau pour garantir la conformité aux réglementations. Il en va de même pour permettre aux clients de se connecter à des sources externes afin de mieux favoriser l’analyse et la compréhension des données en temps réel.
Bref, le responsable se garde bien de trop en dire.
David Menninger, quant à lui, suggère que Confluent pourrait encore mieux répondre aux besoins des clients en leur permettant de combiner plus facilement les données en continu avec les données au repos.
« Les mondes du streaming de données et des données au repos se rapprochent, mais il s’agit encore de mondes largement séparés qui peuvent être intégrés ou coexister », avance-t-il « J’aimerais que Confluent et d’autres créent une plateforme plus unifiée pour les données en continu et les données batch ».
En ce sens, en mars dernier, l’éditeur avait présenté TableFlow, un projet visant à simplifier l’ingestion de topics Kafka dans des tables Apache Iceberg. Le projet n’en est qu’à ses prémisses.