agsandrew - Fotolia
Avec la v5.0 de sa plateforme, Confluent rapproche Kafka des entreprises
Avec des outils de récupération après sinistre et une interface graphique pour KSQL, la version 5.0 de la plateforme de la société entend ouvrir le framework à un public plus large
Kafka toujours plus près des entreprises. Avec la version 5.0 de sa plateforme, la société Confluent industrialise un peu le framework Kafka pour le rendre plus exploitable dans des usages en production et en faciliter l’accès. L’objectif de Confluent : rendre l'analyse de données en temps réel accessible à une communauté d’utilisateurs beaucoup plus étendue.
Confluent est l’entité commerciale derrière le projet open source Kafka. Ce projet, confié à la fondation Apache en 2012, est en fait né chez Linkedin. Confluent rassemble en fait cette matière grise qui a développé Kafka afin de lui donner une autonomie commerciale et de rapprocher la technologie des préoccupations premières du monde des entreprises.
Cela s’est par exemple concrétisé avec le langage et le moteur de requêtes KSQL, dont l’ambition est de faciliter les requêtes SQL effectuées sur les données Kafka. Il s’agit ici d’inclure les données de streaming Kafka aux analyses des entreprises. La version 5.0 de la plateforme de Confluent permet justement d’optimiser l’utilisation de KSQL en le dotant d’une interface graphique au cœur d’une console de contrôle centralisée, elle-même nouvellement intégrée à la plateforme.
La version 5.0 de la plateforme Confluent vise également à améliorer les possibilités de reprise après sinistre ainsi que la mise en place de scenarii liés à l’IoT (un cas d’usage très proche de Kafka) avec le support de proxies MQTT. Un autre élément de cette version est la volonté de s’extraire du monde Java : la nouvelle interface graphique de KSQL évite d’avoir à utiliser Java pour programmer des analyses en streaming.
Les données streaming au même niveau que les autres
La reprise après sinistre, tout comme les autres améliorations sont fort utiles, commente Doug Henschen, analyste principal chez Constellation Research. « La valeur de cette version réside dans ce qu’apporte KSQL en matière d'intégration du streaming analytics. »
Outre une nouvelle interface graphique, le moteur KSQL a également été mis à jour en y ajoutant le support des fonctions définies par l'utilisateur (UDF – User Defined Functions), à la base de nombre de fonctions SQL existantes. Cette version 5.0 supporte également la gestion des données imbriquées dans les formats Avro et JSON.
« Confluent répond aux attentes des développeurs et propose ici des fonctions recherchées pour créer de nouvelles générations d’applications bâties sur le streaming de données », ajoute encore l’analyste.
Au fur et à mesure que le Web, le cloud et l’IoT génèrent de plus en plus de données, les entreprises cherchent à inclure ces données temps réel au sein de leurs analyses opérationnelles. Les compétences nécessaires pour atteindre ce niveau de développement restent rares. Mais avec l’enrichissement des écosystèmes Spark et Kafka, la simplification des bibliothèques et des interfaces, ces flux de données peuvent désormais être intégrées aux analyses des entreprises.
A la base, Kafka est un système de messaging de type « publish-and-subscribe » développé pour gérer les données issues de l'activité web et du cloud chez LinkedIn.
Le support de Confluent Platform pour les données imbriquées en Avro et JSON permettra une plus grande utilisation des outils de Business Intelligence (BI) avec le streaming de données Kafka, explique Joanna Schloss, directrice du marketing produit de Confluent. En plus de cela, KSQL supporte désormais des jointures plus complexes.
Visualiser l'activité de KSQL via une interface graphique fait du langage un outil intégré aux processus de développement dans lesquels les développeurs, ainsi que les DevOps et le personnel d'exploitation, ont tous un rôle à jouer dans la gestion des flux de données.
« Parmi ces personnes, nombreuses sont celles intéressées par le fonctionnement de cluster Kafka », assure-t-elle. Avec l'interface graphique KSQL, « quand un incident survient, ils peuvent utiliser leurs compétences SQL pour regarder ce qui s'est passé », et ils n'ont pas besoin de trouver un développeur Java pour interroger le système.
Un Kafka plus proche des applications
KSQL permet d'encapsuler beaucoup de complexité, et, ainsi, d’abaisser la barrière à l'écriture d'applications de streaming, soutient à son tour Stéphane Maarek, Pdg de DataCumulus, une société parisienne spécialisée dans la formation et le conseil en Java, Scala et Kafka. Et en cela, Confluent ouvre Kafka « à davantage de cas d'utilisation et de sources de données ».
De plus, ajoute-t-il, parce que la communauté open source qui soutient Kafka « est forte, les applications en temps réel sont vraiment faciles à créer et à utiliser ».
Les nouvelles fonctions de réplication de la plateforme Confluent représentent selon lui « un bond en avant pour la reprise après sinistre – un point jusqu'à présent un peu douloureux », confirme le Pdg, mettant aussi en avant les récentes mises à jour de Confluent Control Center. Selon lui, cela donne aux développeurs et aux administrateurs un meilleur aperçu de l'activité des composants du cluster Kafka, en particulier le registre des schémas et les délais de consommation des applications - soit la différence entre la lecture et l'écriture des messages.
Le streaming de données : un marché qui s’agrandit
Le domaine du streaming de données reste certes jeune. Mais Confluent, aussi pure-player soit-il est confronté à la concurrence de ténors de l'analyse de données comme IBM, Teradata et SAS Institute, ainsi que celles des fournisseurs de distribution Hadoop comme Cloudera, Hortonworks et MapR. Sans oublier le poids de spécialistes que sont MemSQL, SQLstream et Striim.
« L’intérêt pour les applications de streaming et les analyses en temps quasi réel est énorme, mais c'est un domaine peu mature », rappelle Doug Henschen. « Il y a beaucoup de façons de faire et beaucoup de fournisseurs - base de données, plateformes de messagerie en continu, plateformes de données de prochaine génération… - tous se disputent une part de gâteau. »
Cependant, Kafka revient souvent dans leur discours, note-t-il.