Sergey Nivens - Fotolia

AWS, Google, Microsoft : se repérer dans les services Big Data

Les services Big Data attirent les entreprises vers le Cloud. AWS, Microsoft et Google bataillent pour bien se positionner aux yeux des entreprises, mais lequel parvient le mieux à tirer son épingle du jeu ?

L’arrivée d’un outillage et de services Big Data a provoqué une évolution du marché du Cloud. Si cela complique la comparaison des fournisseurs, il convient toutefois de s’y essayer car au final, les offres de Microsoft, AWS et Google ne sont pas toutes équivalentes.

Avec son positionnement phare sur le segment de la recherche Web, Google est naturellement proche du Big Data dans le Cloud. Mais AWS et Microsoft séduisent des entreprises et start-ups. En résulte au final une offre de services Big Data étendue de plus en plus intéressante d’un point de vue fonctionnel mais également économique. Et une concurrence entre les trois ténors du secteur qui profite aux utilisateurs.

Passons en revue les services proposés par AWS, Microsoft et Google.

Amazon Web Services

AWS dispose d’un large éventail de services liés au traitement des données en volume. Amazon Elastic MapReduce, par exemple, s’appuie sur Hadoop et Spark. Kinesis Firehose et Kinesis Streams proposent de leur côté un moyen de streamer de gros volume de données vers AWS. Les utilisateurs peuvent ensuite stocker les données dans RedShift, un entrepôt de données capable de se dimensionner à l’échelle du pétaoctet, doué de fonctions de compression pour réduire les coûts. Amazon ElasticSearch permet quant à lui de déployer ElasticSearch sur AWS à des fins analytiques. Kinesis Analytics complète cela avec le streaming de données.

AWS offre également un choix plus étendu que Google en matière de stockage. En plus de S3, il propose DynamoDB, une base NoSQL à faible latence, DynamoDB pour la base en graphe Titan, Apache HBase, une autre base NoSQL, ainsi que des bases relationnelles.

Le groupe épingle aussi à son catalogue un service de BI, QuickSight, qui utilise le parallélisme et le In-Memory pour augmenter la rapidité de traitement.  Cela peut être complété par Amazon Machine Learning et la plateforme AWS IoT qui connecte les objets au Cloud. Celle-ci est capable de gérer des milliards d’objets et de messages.

Ainsi, si Google dispose d’un avantage en  matière de recherche et de moteur d’analytique, AWS propose un spectre plus étendu de services, d’outils de BI et des instances à base de GPU.

Microsoft Azure

En matière d’analytique, Azure a à son catalogue Data Lake Analytics, qui s’appuie sur le langage U-SQL, ainsi que HDInsight, un service Hadoop. On y trouve également Azure Stream Analytics, Data Catalog qui identifie les jeux de données via un système de métadonnées, et Data Factory, qui relie les sources de données Cloud et sur site et gère les pipelines de données.

Parmi les services de stockage de Big Data dans Azure, on retrouve Data Lake Store, un système de fichiers Hadoop. Le fournisseur de Cloud dispose aussi d’une offre étendue en matière de stockage, comme StorSimple, des bases de données NoSQL et SQL, et du stockage blob.

Azure propose également Power BI et des outils de Machine Learning, en ligne avec les outils d’AWS, et dispose aussi d’un hub pour l’IoT. La plateforme Cloud comprend aussi un moteur de recherche, Cortana et des services cognitifs pour des fonctions plus avancées.

Google

Le service de données BigQuery s’adosse à une interface SQL intuitive, facile à prendre en main, y compris pour les non techniciens. Il supporte des bases de données de l’ordre du pétaoctet, et peut effectuer du streaming de données (100 000 lignes par seconde). BigQuery supporte également la réplication géographique. Les utilisateurs peuvent sélectionner leur zone de stockage.

BigQuery est un service facturé à la demande dans une infrastructure dédiée, ce qui permet à Google d’utiliser un grand nombre de processeurs pour garantir des temps de requêtes très rapides. L’intégration à Spark, Hadoop, Pig et Hive est également comprise. Les entreprises ont aussi la possibilité de s’appuyer sur Google Analytics et DoubleClick, comme source de données. Google Cloud Dataflow permet aux utilisateurs d’ordonnancer les services de données Cloud.

La firme de Mountain View propose aussi d’autres services de données, comme Cloud Datastore, une base de données non relationnelle ; Cloud BigTable, une base NoSQL massivement scalable, Cloud Machine Learning, une plateforme managée pour le ML ; et d’autres outils comme des convertisseurs et des traducteurs.

On peut aussi noter qu’il manque à Google des instances GPU. Ecrire du code pour des GPU à des fins analytiques est une valeur sûre, au regard des gains en matière de performances que cela offre. Cette absence de famille d’instances est plutôt surprenante. AWS le propose depuis 2011 et Azure depuis 2015.

AWS, Azure, Google : une course très disputée

En de nombreux points, ces trois gros acteurs se tiennent dans un mouchoir de poche, même s’il existe des différences en matière de performances et de facilité d’utilisation qui nécessitent de soulever le capot pour bien comprendre. Si Google possède une solide avance  dans la recherche, le groupe est en retrait dans le domaine de la BI, là où Microsoft se distingue avec Cortana. Le manque d’instance GPU chez Google est aussi une différence notable.

Comme avec de nombreux produits, et parce que ces services Big Data en sont encore à leur début, la différence sera liée aux cas d’usage et aux données. Il peut donc s’avérer difficile de choisir entre ces trois acteurs. Une façon de trouver la bonne solution consiste à les tester pendant plusieurs semaines afin de mieux comprendre comment cela fonctionne et quel sera le prix.

Pour approfondir sur Cloud