Quels usages pour Hadoop : un regard sur le stockage, les appliances et l’analytique
Dans un entretien avec nos confrères de SearchStorage.com, John Webster, associé senior du cabinet Evaluator Group, revient sur les usages possibles d'Hadoop.
Hadoop peut être un outil utile dans les environnements Big Data, mais selon John Webster, un associé senior du cabinet Evaluator Group de Boulder, une large part des critiques de la technologie provient d’incompréhensions quant aux usages potentiels d’Hadoop. Dans cet article en deux parties, Webster explique le rôle d’Hadoop en matière de stockage de données en volume, répond à la question de savoir si HDFS peut être utilisé comme alternative au stockage objet et revient sur les changements qui sont nécessaires pour accélérer l’adoption d’Hadoop.
SearchStorage.com : Qu’est-ce qu’entendent les entreprises quand elles parlent d’Hadoop et d'océans de données ?
John Webster : Lorsque j’entends « Océan de données », je pense à cet environnement massif et évolutif où vous pouvez stocker tout un tas de choses et les retrouver quand vous en avez besoin. C’est typiquement le concept que poussent les vendeurs traditionnels de systèmes de datawarehouse lorsqu’ils font référence à Hadoop. Ce qu’ils disent est que l’entreprise peut utiliser Hadoop comme un emplacement où positionner de multiples types de données, structurées, non structurées, fichiers… à partir desquels il faut extraire du sens dans le contexte d’un datawarehouse. Les entrepôts de données traditionnels ne sont pas très bons pour traiter ce type de données, donc vous avez cet océan de données dans lequel vous pouvez déverser tout un tas d’informations, et vous pouvez l’utiliser pour alimenter un datawarehouse existant, auquel cas, Hadoop devient essentiellement un moteur d’extraction, de transformation et de chargement. C’est un endroit où vous pouvez déverser des données, puis en extraire ce dont vous avez besoin pour les mettre dans le datawarehouse. Dans certains cas, Hadoop peut aussi servir de magasins d’archivage.
SearchStorage.com : En quoi le fait qu’Hadoop soit bâti sur un système de gestion de fichiers est-il important pour son rôle en matière de stockage de données ?
John Webster : Il ne s’agit pas que du fait qu’Hadoop est un filesystem – Pour moi, il s’agit d’un système de gestion de fichiers distribué ; ce qui est réellement le point différentiant. L’idée est que vous avez un système de fichiers qui fonctionne sur un cluster de serveurs et ce cluster peut être étendu à plusieurs milliers de nœuds. Il s’agit d’un système de gestion de fichiers très « élastique ». Vous pouvez l’étendre, le compresser, et il peut couvrir un grand nombre de serveurs différents.
SearchStorage.com : Pensez-vous qu’Hadoop puisse être utilisé comme une alternative aux « object stores » pour les grands jeux de données ?
John Webster : Si j’étais un acheteur de systèmes de stockage et que je cherchais un object store, par exemple pour une application d’archivage – ce qui est l’une des applications pour les systèmes de stockage objet -, ma réponse serait négative. Je ne mettrai pas Hadoop dans la catégorie des object stores. Hadoop est quelque chose que vous pouvez programmer, alors que des équipements de stockage typiques, comme des baies SAN ou NAS, ne sont pas vraiment programmables , au sens où on l’entend habituellement – c’est à dire l’aptitude à accueillir des applications. Alors que c’est typiquement ce que l’on fait avec Hadoop. Je conçois Hadoop comme une plate-forme de stockage sur laquelle on fait aussi tourner des applications, alors qu’un object store sert habituellement des données à des applications [fonctionnant sur des systèmes séparés].
SearchStorage.com : On entend beaucoup parler d’Hadoop mais pensez-vous qu’il y ait assez d’applications basées sur la plate-forme pour accélérer son adoption ?
John Webster : Il y a deux points à considérer, ici, du moins du point de vue de l’entreprise. La première est qu’il y a un grand nombre de sociétés sur le marché qui selon toute vraisemblable ont un cluster Hadoop quelque part dans leur organisation, peut-être parce que le marketing a acquis un système provenant d’une société qui vend la technologie sous forme d’appliance « prête à l’emploi » ou parce que quelqu’un au sein de l’IT a assemblé quelques serveurs, téléchargé le code libre et déployé Hadoop dans un bac à sable pour voir de quoi il s’agit exactement. Pourquoi parle-t-on autant d’Hadoop ? Que peut-on faire avec ? Les gens du marketing qui font du « shadow IT » savent pertinemment quoi en faire car ils utilisent déjà activement la technologie. D’un autre côté, il n’est pas rare de trouver Hadoop au sein de bacs à sable et de voir l’IT « jouer » avec la technologie sans vraiment voir d’application pratique pour l’instant, sans vraiment savoir qu’en faire ou comment le programmer. Il s’agit typiquement des deux scénarios que l’on rencontre dans les environnements d’entreprise.
Dans le cas de l’IT, je pense que les équipes informatiques l’utilisent pour tenter de déterminer quel type d’applications peuvent fonctionner sur Hadoop. Ils sont peut-être parvenus à la conclusion qu’ils vont devoir développer ces applications eux-mêmes, ce qui est fréquemment le cas. Mais il y a aussi déjà beaucoup d’applications qui apparaissent et qui vont permettre à l’entreprise d’affirmer plus simplement : « OK, voici les scénarios d’usage d’Hadoop ; nous n’avons pas besoin d’une armée de data scientist à 300 000$ par an pour tirer profit de cette plate-forme ». Nous ne sommes plus loin d’un point d’inflexion où l’entreprise devient consciente qu’il y a vraiment des applications à valeur ajoutée sur le marché qui permettent de faire des choses avec Hadoop et qui produisent des résultats jusqu’alors inconnus. Certaines des informations que les entreprises parviennent à extraire d’Hadoop sont tout simplement stupéfiantes.
Adapté d'un entretien en anglais rédigé par