Entretien avec Amr Awadallah, CTO de Cloudera

De passage à Londres chez nos collègues de ComputerWeekly, Amr Awadallah, revient dans une interview sur le concept de « Hub de données en entreprise » poussé par le spécialiste d'Hadoop.

Amr Awadallah est le CTO et co-fondateur de Cloudera, spécialiste de la distribution Hadoop. Avant cela, il était vice président de l’ingénierie produit chez Yahoo. Lors d’une récente visite à Londres, il s’est entretenu avec nos confrères et partenaires de ComputerWeekly sur la façon dont la société met en place son concept de « Hub de données en entreprise » par opposition aux entrepôts de données déjà établis dans les entreprises.

 

Amr Awadallah, CTO de Cloudera : "Nous sommes le smartphone de la donnée, l’entrepôt de données, lui est le Reflex numérique"

Il existe deux publics pour le Big Data. Celui intéressé par le concept et celui qui l’utilise. Quelle est votre approche par rapport à cela ?
Amr Awadallah : On trouve des personnes à tous les étages : ceux qui ne sont pas certains de ce qu’il faut faire et qui tâtonnent, et les clients qui sont déjà dedans. Cela est normal, comme dans tout cycle d’adoption d’une nouvelle technologie.

Est-il moins nécessaire d’évangéliser avec les technologies Big Data ? Les problèmes ne sont-ils pas plus évidents qu’à l’habitude ?
Amr Awadallah : Non, nous n'en sommes encore qu’au commencement. On trouve certains cas d’usage liés à l’efficacité opérationnelle, qui abordent la question de économie de coûts. Les gens comprennent cela tout de suite. Mais pour vendre la vision complète de ce que nous appelons le hub de données d'entreprise [Enterprise Data Hub] - il faut encore plus d’évangélisation, même si les clients sont devenus réceptifs.

Un hub de données d’entreprise ?
Amr Awadallah : La mission de Cloudera est de permettre aux clients d’utiliser toutes leurs données pour obtenir encore plus d’informations et poser davantage de questions. « Toutes » est ici le mot-clé. Il ne s’agit pas que des Big Data , mais de toutes les données. Il s’agit d’avoir une vision globale de vos clients.

L’exemple que j’aime donner de cet ensemble de données en question est celui des distributeurs de billets. Il y a 10 ans, la seule information enregistrée était la transaction en elle-même. Aujourd’hui, vous pouvez également collecter des informations implicites, comme votre visage, la façon dont vous interagissez avec l’écran, si vous disposez d’un smartphone sur lequel est installé l’application de la banque et les informations liées au scanner de chèques. Tout cela améliore la détection de fraudes.

« Poser davantage de questions » est également un point important. Les applications traditionnelles se sont focalisées sur l’usage de SQL. Désormais, SQL est puissant, mais il y a toujours des questions que vous ne pouvez pas poser. Vous ne pouvez pas traiter des images ou faire de la reconnaissance vocale avec SQL. Ni scanner un document PDF.

Le cas d’usage ultime est une vue à 360 du client. Cela résout les problèmes de silos de données et de données répartis sur plusieurs canaux. Notre plate-forme permet de casser ces silos.

Cloudera est un distributeur de distribution Hadoop. En quoi cette approche de hub correspond-il à une évolution ?
Amr Awadallah : Il ne s’agit pas de renier de ce que nous avons fait. Mais de parler  un langage plus familier aux entreprises. 80% des distibutions Hadoop vendues dans le monde sont les notres. Mais nous proposons également des technologies en parallèle. Hadoop est aussi en train de se transformer - Yarn contribue ainsi à ouvrir la plate-forme. Il y a 5 ans, tout ce que vous pouviez réaliser avec Hadoop était des opérations MapReduce. Yarn permet à d’autres applications de s’exécuter au dessus des données, comme des applications interactives SQL, ce que propose Impala par exemple.

Nous disposons également  d’une fonction de recherche nativement intégrée. Nous nous intégrons avec SAS et Splunk - Hunk s’exécute nativement sur Hadoop. Le moteur d’ETL d’Informatica s’exécute également au dessus de la plate-forme Cloudera.

L’analogie que nous aimons utiliser est celle-ci : nous sommes le smartphone de la donnée, au lieu du Reflex numérique. Les entrepôts de données des entreprises sont les Reflex du monde de la données. Ils sont chers et ne font qu’une seule chose - interroger des données structurées. Le hub de données en entreprise est équivalent à un smartphone. Il est pratique et les applications peuvent toutes partager les données. C’est pareil avec nous. Le modèle est que les applications viennent aux données, plutôt que de déplacer les données vers des silos de traitement fermés, ce qui empêche d’avoir une vue à 360 degré.

Notre approche est plus économique que l’entrepôt de données traditionnel. Avec nous, le coût pour un teraoctet de données tourne autour de 1 000$. Dans des entrepôts de données, vous pouvez payer jusqu’à 100 000$ par teraoctoet pour stocker des données que vous n’utilisez pas - des données que vous n’avez pas consulté depuis 6 mois par exemple. Nous proposons un système d’archivage dynamique pour cela.

Nous avons également collaboré avec Teradata au niveau de l’intégration. Mais aussi avec Oracle, et sa Big Data Appliance, et avec HP autour du système Vertica. Toutefois, il restera toujours des utilisations pour lesquelles un Reflex est encore la bonne solution.

Les projets Big Data en entreprise sont souvent assimilés à des projets scientifiques. Dépassent-ils ce stade ?
Amr Awadallah : D’abord, 60% des entreprises du Fortune 500 utilisent Cloudera, en production et non pas dans des projets scientifiques. Trois des quatre spécialistes de la carte de crédit dans le monde s’adossent à notre solution pour la détection de fraudes.
L’Europe a deux ans de retard sur les US. Aux Etats-Unis, le gouvernement fédéral et Monsanto sont clients. Ce dernier utilise la plate-forme pour recueillir des données expérimentales de capteurs placés sur le terrain. Ils mesurent la température, la composition du sol, le taux d’humidité et la croissance des plantes. Le groupe travaille à rendre des graines plus efficaces dans différents environnements. Ils partent du principe que dans les 10 prochaines années, les êtres humains consommeront plus qu'au cours des cent dernières années. Je n’aurai jamais envisagé un tel cas d’usage avec nos technologies lorsque nous nous sommes lancés il y a cinq ans.

Comment se répartit votre base de clients  en termes de secteurs d'activité?
Amr Awadallah : Pour nous, les industries clés sont le retail, les entreprises du Web (eBay, par exemple), les télécoms (aussi bien les fournisseurs d’infrastructures que les fabricants de terminaux mobiles comme Nokia, Motorola Mobility et RIM), le secteur du pétrole et du gaz, l’énergie intelligente, l’industrie automobile ,ainsi que le bâtiment.

C’est une affaire de grands comptes. Il ne s’agit pas d’une technologie de petite entreprise, à l'exception des start-up du Web, comme box.com, king.com, etc…En fait elle est utilisée partout où les volumes de données explosent.

Comment résumeriez-vous la valeur ajoutée de vos solutions ?
Amr Awadallah : Nous essayons de donner de l’agilité pour abaisser le coût de la curiosité. Le prix de la curiosité est élevé aujourd'hui dans les entreprises. Lorsque je dirigeais l’infrastructure IT chez Yahoo, les métiers venaient me voir pour ajouter une nouvelle colonne au modèle d’une donnée. C’est difficile avec les entrepôts de données. Cela demande des semaines, voire des mois.

Je leur demandais alors : « Quelle valeur cela va créer pour vous ? » Ils me répondaient : « nous ne pouvons pas vous dire quelle valeur nous allons tirer de cette colonne supplémentaire. » Cela empêche les entreprises d’innover. Il est nécessaire d’avoir un système beaucoup plus flexible, de façon à pouvoir ajouter rapidement de nouvelles colonnes et des types de données. Hadoop offre cela. Vous pouvez expérimenter plus facilement.

Traduit et adapté de l'interview en anglais réalisée par Brian McKenna, ComputerWeekly, par la rédaction du MagIT.

Pour approfondir sur Big Data et Data lake