Mike Olson, CEO de Cloudera : Hadoop change la façon dont les entreprises traitent leurs données
À l’occasion de l’IT Press tour en Californie, LeMagIT a pu rencontrer Michael Olson, le CEO de Cloudera. Précédemment CEO de Sleepycat, vendu à Oracle en 2006, Olson a passé l’essentiel de sa carrière dans le monde des bases de données (il a aussi travaillé chez Illustra et Informix). Lors de cette rencontre Olson a fait un large tour d’horizon du marché du Big Data, sur les ambitions de Cloudera et sur le monde Hadoop. Morceaux choisis…
Comment le Big Data et Hadoop vont changer la façon dont les entreprises traitent leurs données...
Un grand nombre d'organisations et d’entreprises utilisatrices de technologie, vont modifier la façon dont elles traitent leurs données comme elles ne l’ont jamais fait auparavant. Le monde va devenir plus guidé par le Big Data, car les données sont disponibles. Et soit dit en passant, si votre organisation choisit de ne pas en tirer profit, cela deviendra un désavantage concurrentiel. Car d’autres, dans votre secteur, feront un meilleur usage des données. Ce qui change tout, bien sûr, est le volume, la variété et la vitesse des données qui nous sont maintenant accessibles. Elles proviennent de nombreuses sources, y compris d’activités non humaines, telles que mes tweets, mon Facebook ou mes achats en ligne sur les sites d'e-commerce.
À cela viennent les données générées automatiquement par des équipements électroniques parlant à d’autres équipements électroniques. Aux États-Unis, le réseau électrique intelligent est en cours de déploiement, donc ma maison rapporte désormais régulièrement des informations à mon fournisseur d'énergie : combien je consomme, à quel moment et même aujourd'hui, avec certains appareils, les détails de ma consommation dans ma maison, par exemple combien mon système de chauffage domestique consomme. C'est une information qui n'était pas disponible auparavant. Elle nous permettra d'optimiser le réseau de nouvelles façons. L’exploration de ces données à grande échelle permet à nos clients d'utiliser ces données différemment.
En réalité, cela leur permet de poser des questions qu’ils ne pouvaient tout simplement pas poser jusqu’alors. Par exemple, les banques et les assurances cherchent à détecter la fraude. Ce n’est pas une nouveauté, mais que se passerait-il si vous pouviez traiter une décennie de données plutôt qu’un mois d’historique de transactions. Et si vous pouviez ingérer non seulement les transactions financières mais aussi les activités des utilisateurs sur le web, quelles pages ils ont visité, pendant combien de temps, ce qu’ils ont acheté... Si vous pouvez ingérer des données variées et les soumettre à des algorithmes d’apprentissage informatisés, à des outils d’analyse statistique et à des techniques de modélisation avancées, vous pouvez commencer à poser des questions qu’il était impossible de poser précédemment. Et les exemples sont multiples.
Mike Olson, le CEO de Cloudera
(crédit photo : C.Coustaut)
A propos du marché du Big Data et d’Hadoop…
Le volume, la variété et la vitesse des données sont en pleine expansion et cela crée une opportunité majeure pour Cloudera. (…) En 2016, nous nous attendons à ce que 123 Md$ soient dépensés en logiciels au niveau mondial. De façon importante, les applications et les bases de données représenteront plus de la moitié de cette dépense. C'est un investissement énorme et il est lié à des activités économiques déjà engagées.
Si le volume de données et les analyses que souhaitent réaliser les entreprises continuent à évoluer de façon rapide, une partie de ce budget va être perturbée et va aller à de nouveaux endroits. Franchement, nous espérons qu’une bonne partie vienne à nous. Si l’on regarde au-delà des grandes tendances, (…) IDC indique que 1,7 Md$ sont consacrés aujourd’hui à l'analyse de données ; le traitement de données et les ETL pèsent pour 3,5 Md$. Ce sont des marchés adressables immédiatement pour nous et où les clients achètent aujourd'hui (…). Les analystes en général sont horriblement mauvais pour réaliser des prévisions en particulier sur de nouveaux marchés.
Néanmoins, un certain nombre d'entre eux a tenté d’évaluer l’opportunité que représente le marché du Big Data. Selon les sources, les prévisions varient énormément, mais il y a un consensus : entre 10 et 30 Md$ au cours des années à venir. C’est une grande nouvelle pour nous. Nous avons été les premiers à entrer sur le marché du Big Data, nous avons été les premiers à commercialiser Hadoop et nous pensons que nous avons un certain nombre d’avantages pour capturer une partie de ce marché.
La vision de Michael Olson sur Cloudera et Hadoop...
Cloudera a apporté au marché une solution de Big Data basée sur Hadoop. Basée, car notre distribution est la solution la plus complète construite sur Hadoop et les produits l’entourant. Vous pouvez considérer un tel assemblage comme Linux. Ce que Red Hat produit est un logiciel que vous pouvez installer sur votre ordinateur, basé sur le noyau Linux. Vous pourriez assembler les modules vous-mêmes, mais ce que Linux (au sens kernel.com) est vraiment, est un composant compact qui permet de stocker des fichiers et faire tourner des programmes.
Ce que Red Hat a fait est packager toutes les applications et outils, éditeurs de texte et fournit l’infrastructure de support qui rend cette plate-forme utilisable. Red Hat l’a ensuite livré avec un support 24/24 ainsi qu’avec un service de mise à jour. Ce service ressemble à ce que nous faisons pour Hadoop. Nous pensons que nous avons l’opportunité de remplacer une variété de systèmes de stockage, bases de données, systèmes de gestion de contenus spécifiques, propriétaires et vieillissants par une seule solution cohérente, à même de stocker une grande variété de données et de faire tourner un grand nombre de workload.
Soyons clairs : nous ne pensons pas remplacer les bases de données relationnelles. Les grands datawarehouses font un boulot excellent pour l’OLTP et l’OLAP depuis longtemps. Ces marchés resteront durablement l’apanage des vendeurs qui les dominent. Mais nous avons des clients qui dépensent bien trop d’argent sur certains de leurs workloads. Si par exemple vous avez un grand datawarehouse et que vous utilisez ce système grand et cher pour vos applications d’ETL, vous dépensez sans doute bien trop. Vous pourriez libérer de la capacité analytique sur ce système si vous pouviez transférer les workloads de data processing sur une infrastructure moins coûteuse. Notre plate-forme permet à nos clients de faire exactement cela.
Notre désir est de délivrer une seule et unique plate-forme à même de permettre à nos clients d’ingérer des données depuis n’importe quelle source, de la soumettre à une variété de processus de traitement de données et en plus, de l’analyser avec des outils et algorithmes puissants jusqu’alors inaccessibles.
Comme je l’ai dit, nous délivrons une nouvelle plate-forme critique et nous pensons qu’elle deviendra aussi prévalente que les SGBD le sont aujourd’hui. Elle ne remplacera pas les systèmes existants, mais viendra les compléter pour permettre à nos clients d’optimiser leurs déploiements. Ils pourront faire tourner les workloads sur la plate-forme la plus adaptée et au meilleur coût. Ce que l’on a fait est packager le projet open source avec des outils d’administration et de monitoring.
Tout ce que nous savons sur la gestion des clusters Hadoop a été mis dans le logiciel et nous délivrons le tout avec un support 24/7. Nous rendons Hadoop manageable. Notre go-to-market est le même que celui de Sybase, Ingres ou Oracle dans le milieu des années quatre-vingt-dix. Hadoop, comme les bases SGBD à l’époque, est nouveau. Il faut des compétences pointues pour l’opérer et elles sont encore assez rares sur le terrain. Les applications, les outils qui tournent sur Hadoop, sont eux aussi encore rares, mêmes si nous en voyons apparaître de plus en plus.
Comme Oracle, Sybase, IBM ou Microsoft, Cloudera se concentre non pas sur le développement d’applications mais sur la livraison d’une infrastructure fiable, simple à administrer et à exploiter. Nous laissons intentionnellement le marché des applications et des outils à nos partenaires. Notre désir est de créer un écosystème riche de vendeurs qui s’appuient sur notre plate-forme. Si nous y parvenons, chacun de ces outils et applications accélérera l’adoption de notre plate-forme.
Cette stratégie devrait nous permettre de nous développer de façon solide à long terme. Il se pourrait qu’un jour viendra où nous aurons saturé le marché pour les plates-formes Big Data, mais nous avons aujourd’hui un large espace ouvert devant nous pour délivrer cette plate-forme et encourager l’innovation dans l’écosystème. Nous avons aujourd’hui 400 partenaires dans notre programme Connect. Ce sont des éditeurs, des intégrateurs systèmes, ou des constructeurs comme Dell ou HP ainsi que des éditeurs d’outils comme Microstrategy.
Cloudera et ses concurrents dans le monde Hadoop (MapR, HortonWorks…)...
Nous existons depuis mi-2008. C’est plus vieux que nos concurrents immédiats. Le créateur d'Hadoop travaille pour Cloudera; nous employons une population non négligeable de contributeurs et de commiteurs au code Hadoop open source; nous disposons d’une équipe compétente en charge du développement de nos outils de management et des personnels adaptés pour le support de nos clients et de nos partenaires... Nous sommes leaders simplement parce que les dés étaient pipés d’avance : nous sommes sur le marché depuis plus longtemps que tous nos concurrents, et de ce fait, nous avons plus de retours sur ce dont ont besoin les clients.
Et puis, nous avons simplement eu plus de temps que tout le monde pour construire nos produits. Notre technologie, notre équipe, nous séparent des concurrents. 20 milliards d’événements online sont ingérés chaque jour par nos systèmes. 20 millions de foyers voient leur consommation énergétique traitée et analysée par nos systèmes, 70% des activités en ligne des utilisateurs mobiles US passent à un moment ou à un autre par un système Cloudera, notamment les services en matière de géolocalisation. 4 des 5 premières banques US nous utilisent pour de l’analyse de risque ou de la détection de fraude et nous sommes présents chez les plus grands opérateurs télécoms, ainsi que dans les grandes agences de renseignement américaines.
Il ne s’agit pas, comme vous le voyez, que d’applications internet grand public. Il ne s’agit pas de Facebook - pour motoriser la sélection de publicités qu’il va afficher à ses membres. On parle là d’un échantillon très large de workloads dans des secteurs économiques très variés, permettant de résoudre des problèmes spécifiques à chaque client. Cette plate-forme ne peut générer un marché de plusieurs milliards de dollars que si elle est suffisamment générique et peut être appliquée à des problèmes très différents, c’est le cas dans notre base installée.
Hadoop et les traitements en temps réel...
Pour ceux qui ne connaissent pas très bien Hadoop, la conception a eu lieu chez Google et l’accouchement s’est fait dans des sociétés comme Facebook ou Yahoo. Le problème que ces sociétés cherchaient à résoudre était celui du traitement à très grande échelle de log web. Ils avaient beaucoup de données à traiter en mode batch.
Ils ont donc conçu MapReduce, un système de traitement de données en mode batch pour analyser ces données. Cela a transformé la façon dont Internet opère. Ce qui nous a motivés chez Cloudera est que nous étions convaincus que ce qui a transformé l’Internet grand public était applicable aux entreprises : Google n’était pas différent d’une entreprise normale, il opérait simplement 10 ans dans le futur… Stocker de grandes quantités de données et pouvoir réaliser des traitements en mode batch dessus a déjà changé les choses.
Mais soyons honnêtes, il y a beaucoup d’applications qui ne fonctionnent pas en mode batch dans le monde. Il y aussi un grand nombre d’applications temps réel et interactives. Si Hadoop était prisonnier du ghetto batch, il ne pourrait pas tirer parti d’opportunités de marché très larges. C’est pourquoi dans le cadre de notre plate-forme, nous délivrons une plate-forme d’analyse de données en temps réel baptisée Hbase. Nous avons aussi fait une contribution majeure à la communauté Open Source avec un logiciel de traitement en temps réel baptisé Impala qui permet d’effectuer des requêtes interactives sur les données stockées dans Hadoop.
En fait vous pouvez utiliser MapReduce, Hbase ou Impala sur un même jeu de données. Une fois que les données sont stockées sur Hadoop, vous pouvez lui apporter tout type de moteur de traitement. MapReduce n’est pas la seule alternative, Hbase ou Impala sont disponibles aujourd’hui mais au fil des ans de nouveaux moteurs devraient s’ajouter à la liste.
Impala n’est-il pas une implémentation de Google Dremel avec 2 à 4 ans de retard ? Et que dire du retard général Hadoop sur les technologies développées en interne par Google ?
Si vous regardez le projet open source Hadoop vous avez effectivement raison. Il s’agit d’une « imitation » avec 4 ans de retard sur ce que Google avait inventé en interne. J’ai passé 26 ans de ma carrière dans le monde des SGBD, j’ai lu à l’époque l’article de Google sur MapReduce et j’ai pensé qu’il s’agissait d’une blague.
Tout le monde dans l’industrie pensait savoir comment bâtir des bases de données à grande échelle et nous avons complètement raté l’opportunité que représentaient Hadoop et le Big Data en général. Une industrie avec des milliards de dollars de revenus, avec un énorme budget R&D épaulé par la recherche de multiples universités de classe mondiale, a passé 30 ans à perfectionner ses logiciels de traitement de données et au final, c’est une bande de développeurs hirsutes de Mountain View en Californie qui a sorti de son chapeau la technologie qui a révolutionné le secteur.(…) Impala est un mix entre des idées neuves et des concepts empruntés à Dremel.
Dans les trimestres à venir, nous allons apporter de nouvelles innovations à la plate-forme qui ne sont pas dérivées de Google. Mais nous n’avons pas honte : nous prendrons les bonnes idées d’où qu’elles proviennent. Ce que nous avons fait franchement est d’interroger notre base installée pour voir quels étaient ses besoins et pour y répondre, nous avons embauché l’ingénieur de Google qui avait construit Dremel. Il y a en revanche des fonctions qui arrivent qui sont inspirées de demandes de nos clients et qui n’ont rien à voir avec ce que fait Google. Et je le répète. Nous n’avons aucune réserve à emprunter de bonnes idées à Google.
En fait, il va se passer pour la plate-forme Hadoop, ce qui est arrivé aux SGBD. Il y a 30 ans, vous pouviez aller voir Ingres et acheter un SGBD. Aujourd’hui vous ne pouvez plus aller voir Ingres(sic), mais IBM, Oracle ou Microsoft pour acheter votre SGBD. Mais ce logiciel n’a plus rien à voir avec les SGBD d’il y a 30 ans. Hadoop est jeune, il va évoluer pour exploiter de nouveaux développements techniques, comme la généralisation des réseaux longue distance à haute performance, la chute des coûts du stockage.
Il sera intéressant de voir ce que sera le positionnement prix de la Flash d’ici 5 ans. En fait si vous entendez aujourd’hui quelqu’un critiquer Hadoop en disant, «oui, mais Hadoop n’est bon qu’à X ou Y», il est prudent de rajouter « aujourd’hui ». Les limitations que nous connaissons aujourd’hui seront certainement contournables dans le futur avec un peu d’ingénierie.