Architecture Lambda
L'architecture Lambda est une approche hybride de la gestion du Big Data qui permet un traitement par lots et en quasi temps réel.
L'architecture Lambda de base comporte trois couches : lot, temps réel et service. La couche lot, généralement sous Hadoop, stocke toutes les données. MapReduce exécute régulièrement un traitement par lots sur la totalité de ces données. Envoyées à un datastore, ces informations servent à mieux comprendre les tendances des données historiques.
Parallèlement à cette couche moins rapide, les nouvelles données sont capturées et traitées à mesure qu'elles arrivent. La couche temps réel permet aux collaborateurs d'adapter leurs décisions et de réagir promptement aux nouvelles tendances.
Les données qui transitent par cette couche temps réel sont également copiées dans un plus grand jeu de données pour y subir un traitement par lots, plus long.
Après le traitement en temps réel, les données sont effacées de la couche temps réel pour laisser la place à de nouvelles données. Comme la couche temps réel ne traite que les données qui arrivent entre deux lots de traitement, son fonctionnement reste efficace même avec un flux régulier de données complexes.
Les couches temps réel et par lots fusionnent pour les recherches effectuées via la couche service, qui inclut un moteur de requêtes à traitement massivement parallèle.
L'accès à cet ensemble de données combiné permet de disposer à tout moment de rapports précis avec une latence faible.