Stephen Finn - Fotolia
Hortonworks ira désormais piocher dans le stockage objet de Google
Hortonworks prend désormais en charge Google Cloud Storage et a également élargi ses accords avec Microsoft et IBM. Objectif : augmenter les cas d’usage de sa plateforme dans le cloud.
Hortonworks a souhaité donner une autre dimension aux partenariats scellés avec Google, Microsoft et IBM. Ce spécialiste du monde Hadoop compte s’appuyer un peu plus sur ses partenaires pour développer les usages cloud de sa plateforme, en supportant des services qui sont aujourd’hui clé dans le traitement des Big Data.
A travers ces accords, le groupe a par exemple annoncé le support Google Cloud Storage (GCS). Les applications bâties sur Hortonworks pourront directement aller piocher dans les données stockées sur le service de stockage objet de Mountain View. Le stockage objet dans le cloud est en effet devenu une pierre angulaire des architectures de données, quitte à détrôner parfois Hadoop Distributed File System (HDFS), le système de fichiers de référence de Hadoop, pour les grosses applications.
Si avec une telle approche, Google entend rattraper son retard, face à AWS et Microsoft, Hortonworks, de son côté, poursuit sa stratégie multi-cloud pour permettre aux utilisateurs d'exécuter des charges de travail sur plusieurs clouds, soutient Tony Baer, analyste du cabinet d’analystes Ovum.
Selon lui, pour certaines entreprises, celles qui n’ont pas la taille des multinationales, l'analyse des Big Data se fera en grande partie dans le cloud. « Pour ceux qui démarrent, Hadoop reste une plateforme compliquée, avec nombre d’éléments variables, même si les fournisseurs de distribution pré-mâchent le travail», explique-t-il. « Il faut beaucoup de connaissances pour le mettre en place, et ce n'est pas une compétence qui existe dans la plupart des entreprises. »
En déplaçant de gros volumes de données vers le cloud, les utilisateurs voient souvent une opportunité d'économiser de l'argent. Ils considèrent donc les outils de stockage GCS, S3 ou encore Azure Blob Storage. Ces technologies ont certes des performances plus lentes que HDFS, mais cet écart pourrait bien se réduire avec le temps, pense l’analyste. Spotify, Coca-Cola et le Broad Institute sont listés parmi les clients de GCS.
Sur les données froides
Nuance, toutefois, tient à préciser Scott Gnau, directeur technique de Hortonworks. Cet intérêt grandissant pour le stockage objet dans le cloud ne préfigure pas l'abandon complet de HDFS chez Hortonworks.
« Les clients cherchent à tirer parti de différentes options », précise-t-il. S’appuyer sur des données stockées nativement dans GCS ou S3 permet aux utilisateurs « d’utiliser les données là où elles se trouvent sans avoir à les déplacer » vers HDFS, note-t-il. Selon le responsable, conserver ses données dans ces services cloud de stockage objet est généralement moins coûteux que de le faire dans HDFS.
Mais attention, il est fort probable que les utilisateurs continuent d’utiliser HDFS pour les applications cloud qui nécessitent une analyse de données sophistiquée et de haute performance, ajoute-t-il. Le stockage objet comporte aussi certains inconvénients. « Ce n'est pas aussi performant que HDFS ». Le traitement des données froides semble être ainsi l’usage le plus immédiat – comprendre les données qui ne font pas partie des traitements analytiques.
Les utilisateurs de Hortonworks peuvent aujourd’hui découpler le stockage du compute en utilisant GCS au lieu de HDFS, commente à son tour Sudhir Hasbe, directeur Produit pour la plate-forme Google Cloud. Il est plus rentable pour les utilisateurs HDFS sur site d'utiliser les systèmes cloud Hortonworks pour leurs gros volumes de données, pense-t-il.
Et aussi IBM, Microsoft
Cette alliance avec Google vient en compléter d’autres, passées avec AWS, IBM et Microsoft, qui elles-aussi ont été étendues lors de ce même événement.
Désormais, les entreprises peuvent exécuter Hortonworks Data Platform (HDP) nativement sur Microsoft Azure, en plus de pouvoir utiliser Azure HDInsight (lui-même bâti sur HDP). Hortonworks DataFlow et Hortonworks DataPlane Service, deux technologies connexes, sont aussi disponibles pour les déploiements natifs sur Azure.
Les relations avec IBM sont aussi devenues plus étroites. Les deux partenaires avaient déjà scellé un accord l’année dernière : IBM avait en effet décidé de capitaliser sur Hortonworks plutôt que de commercialiser et de développer sa propre distribution Hadoop. Dans un billet de blog publié par Rob Thomas, directeur général d'IBM Analytics, en marge de l’événemment d’Hortonworks, Big Blue a annoncé IBM Hosted Analytics avec Hortonworks qui associe HDP au moteur de requête DB2 Big SQL et à la plateforme pour data scientists, Data Science Experience Workbench.
HDP 3.0 avance vers Docker
Enfin, Hortonworks en a également profité pour détailler ce que sera HDP 3.0 dont la sortie est prévue au troisième trimestre. Cette version permettra par exemple de placer des applications dans des containeurs Docker pour en accélérer les déploiements. Cela favorisera également le déplacement des workloads d’un serveur à l’autre. Cette version pourra également exécuter des applications de Deep Learning sur des systèmes GPU et supportera Apache Hive 3.0.
Hive 3.0 fonctionne comme une base de données en temps réel pour les applications d'analyse qui nécessitent des temps de réponse aux requêtes très rapides, ajoute Scott Gnau. « Aujourd’hui, il s'agit vraiment d'une base de données. Historiquement, Hive est considéré comme un environnement de programmation SQL qui s'exécute au-dessus d’Hadoop. »