Le Big Data est-il soluble dans le Cloud public ?
Réuni au sein du prestigieux MIT, un groupe d’experts de l’industrie et de spécialistes de la donnée ont débattu sur le rôle, ainsi que sa fiabilité, du cloud dans le Big Data. Certains restent encore sceptiques, nous apprennent nos confrères de SearchCloudcomputing.
Un groupe de « data scientists » et de ténors du IT d’entreprise se sont réunis la semaine dernière au très prestigieux MIT pour débattre de l’épineuse question de l’éthique et de la gestion de l’analytique des Big Data. Ces données en volume ont-elles oui ou non leur place au sein des clouds publics. Lorsque la question fut posée à un panel de deux spécialistes de la donnée et un expert de l’industrie - quel rôle pour le Cloud dans le Big Data ? - le scepticisme était de rigueur, notamment autour de la confiance et de la fiabilité des nuages. « Nous allons continuer à investir dans notre infrastructure existante en interne », a ainsi affirmé Claudia Perlich, une responsable chez media6degrees, un société de recherche en marketing basée à New York. « Nos clients n’ont pas forcément confiance dans les fournisseurs de services Cloud, nous préférons contrôler autant que possible notre IT ». Elle ajoute que c’est dans l’intérêt de l’entreprise d’investir dans sa propre infrastructure, même si cela risque de coûter plus cher que de basculer vers un service de cloud public. Une entreprise, moins axée sur le traitement des données et qui utilise seulement les Big Data pour la prise de décision, pourrait certes avoir une autre vision, concède-t-elle. Toutefois, de plus en plus d’entreprises ont commencé à placer les traitements de leurs Big Data dans le cloud, assure Mike Olson, le CEO de Cloudera, l’un des spécialistes des services et des applications bâtis sur Hadoop, présent lors de la conférence. Pas forcément parce que cela est moins cher - parfois c’est même l’inverse - mais de part les possibilités de scalabilité et de flexibilité que cela apporte, ajoute-t-il. En fait, de nombreuses start-up du monde du Big Data sont nées en se reposant sur le cloud public, estimant que cela constitue le meilleur moyen pour conserver des coûts réduits d’administration et d’infrastructure, commente à son tour Tom Davenport, professeur à la Harvard Business School et au sien du Babson College. Il évoque également la prédominance des outils Open Source sur le marché des outils de Big Data comme une des raisons de l’adoption. Toutefois, il serait surpris de voir aujourd’hui de grandes entreprises externaliser leur traitement des Big Data sur le cloud public d’Amazon Web Services. Un autre participant Rachel Schutt, statisticien chez Google Research, était quant à lui plus optimiste quant aux déploiements de Clouds privés pour supporter des projets atour du Big Data. Elle explique que le Big Data n’est généralement pas l’affaire d’une unique machine, mais nécessite une approche flexible (scale-out) pour assurer leur traitement. Une approche au sein de laquelle plusieurs modèles s’exécutent sur un parc de machines - ce qui accélère la notion de scalabilité. Les recherches menées sur le Big Data par Google reposent sur la propre infrastructure du groupe. Un point sur lequel les membres du panel se sont accordés est la nécessité d’éduquer la prochaine génération de « data scientists », notamment en matière d’éthique. Alex "Sandy" Pentland, professeur au MIT Media Lab réfléchit avec l’Union européenne et les Etats-Unis à un « Data Bill of Rights ». « Ce doit être l’utilisateur qui contrôle ses propres données », affirme Pentland. Mais il existe toutefois une forme de consensus lorsqu’il est question de confronter vie privée contre bien public et utilisation des techniques avancées de Big Data pour analyser l’information (comme l’enregistrement des données de santé ou le comportement des populations pour endiguer la propagation d’une maladie, par exemple). Avec l’accord des utilisateurs finaux évidemment, une approche plus invasive de l’analytique Big Data pourrait être très utile, soutient-elle enfin.
Traduit et adapté de l'anglais par la rédaction