agsandrew - Fotolia
Le streaming de données n’est pas forcément associé au Big Data
Nombre d’applications reposant sur le streaming de flux de données ne nécessitent pas de gros volumes d’informations et de données. Exemple : un projet dont l’ambition est d’accélérer le diagnostic de problèmes intervenus sur des terminaux connectés à un réseau WiFi.
Les acteurs du traitement de flux de données en streaming mettent certes en avant la capacité de leurs outils à prendre en compte des millions de transactions et d’enregistrement par seconde. Toutefois, les applications qui ont vraiment besoin de cette étendue en matière de données se sont pas légions, comme une niche dans une niche. D’une façon générale, la quantité d’informations réellement exploitées est bien plus réduite, même pour les applications Big Data. « La notion de streaming peut être vraiment relative », soutient Nick Heudecker, analyste chez Gartner. « En réalité, la plupart des applications en sont à traiter des dizaines de milliers de transactions par seconde. »
Meru Network est justement l’exemple d’une entreprise qui a déployé une technologie de streaming, pour une quantité somme toute réduite de données. L’équipe de support technique de la société s’appuie sur des outils analytiques de l’éditeur Glassbeam depuis 2013 pour vérifier les fichiers logs des contrôleurs de réseaux installés sur les sites des clients. Il souhaite ainsi mieux diagnostiquer – et donc mieux résoudre – toutes formes de problèmes.
Les données des machines sont traitées en mode batch, mais aujourd’hui Meru s’appuie aussi sur des capacités d’analyse en temps réel pour certains de ses clients. Pour cela, il associe ses outils Glassbeam à Spark.
Joe Limprecht, qui dirige le support technique de la société pour les Etats-Unis, explique que les scripts qui s’exécutent automatiquement sur Spark Streaming peuvent injecter les données des contrôleurs toutes les 5 à 10 minutes. Cela s’adresse au support de Tier 1 , pour les clients qui ont rencontré des problèmes techniques ayant nécessité une enquête minutieuse.
Peu de données à passer à la moulinette
L’information contenu dans les logs n’est en fin de compte pas énorme : chacun contient quelque 60 Mo de données ; les clients disposent en moyenne de 20 à 30 contrôleurs, explique Joe Limprecht. Toutefois, ajoute-t-il, « l’objectif est de permettre aux ingénieurs du support, qui essaient de résoudre des problèmes plutôt complexes, de visualiser en live les données alors qu’ils sont confrontés aux clients ». Par exemple, ils peuvent analyser des flux de données en streaming pour identifier des pics de trafic qui requièrent l’ajout de points d’accès WiFi sur le réseau d’un client.
Dans ce contexte, où le streaming de données et le temps réel, restent une composante forte, les méthodes et technologies de traitements peuvent varier en fonction des cas d’usage. Si Spark est certes cité dans cet exemple, ce framework très en vogue adosse sa mécanique sur du micro-batch alors que d’autres, comme Storm par exemple, s’adossent à une méthode de traitement en streaming réel.
Traduit et adapté par la rédaction