Google répond à AWS et Kinesis avec Cloud Dataflow
A l’occasion de sa conférence Google I/O qui se tient actuellement aux Etats-Unis, la firme de Mountain View a présenté Cloud Dataflow, un service cloud de traitement des données en mode batch ou en temps réel qui permet d’effectuer des analyses complexes à grande échelle ou encore d’intégrer des flux de données en temps réel dans des applications.
A son tour, Google a décidé que MapReduce, qu’il a pourtant initié il y a plusieurs années, n’était plus une technologie adaptée au traitement temps réel des données en volume. A l’occasion de sa conférence Google I/O qui se tient actuellement aux Etats-Unis, la firme de Mountain View a présenté Cloud Dataflow, un service cloud de traitement des données en mode batch ou en temps réel qui permet d’effectuer des analyses complexes à grande échelle ou encore d’intégrer des flux de données en temps réel dans des applications. Si ce service vient compléter les outils d’analyse et de traitement des données de la Google Cloud Platform - qui comprend notamment BigQuery, notamment -, ce service constitue également la réponse à un service identique développé par AWS, nommé Kinesis. Lancé l’année dernière lors de la conférence Re:Invent d’Amazon, ce service a pour ambition de décloisonner les traitements complexes des données en volume en temps réel dans le cloud et de réinjecter les flux dans des applications, avait expliqué Amazon à l’époque.
Google Dataflow vise quant à lui à « créer des flux de données qui consomment, transforment et analysent des données à la fois en mode batch et en streaming », explique Google dans un billet de blog, soulignant qu’il s’agit là « d’un successeur à MapReduce ». MapReduce, technologie clé de la sphère Hadoop, est souvent pointé du doigt pour sa complexité ainsi que pour son traitement en mode batch, qui éloigne la technologie des traitements en temps réel - ou quasi temps réel - des données en volume.
« Il y a 10 ans, Google a inventé MapReduce pour traiter de grandes quantités de jeux de données en utilisant une infrastructure distribuée. Depuis, l’augmentation des terminaux et des informations nécessitent des pipelines analytiques plus adaptés - ils restent difficiles à créer et à entretenir », commente encore Google. Un problème que Google entend ainsi résoudre avec Cloud Dataflow.
Ce service s’adosse à des technologies maison, comme FlumeJava (traitement parallélisme de données) ou encore MillWheel (applications de traitements de données à faible latence ).