LEADS : un projet de Daas décentralisé financé par l'Union européenne
Financé à hauteur de 4,25 M€ sur trois ans par l'Union européenne, le projet LEADS fédère 4 universités soutenues par Red Hat et Yahoo avec pour ambition de créer un service Daas reposant sur une infrastructure de micro-cloud distribuée. Objectif : porter le traitement en temps réel des données en volume vers les PME.
Porter le traitement des données en volume auprès des PME. C’est l’un des enjeux que tente de relever le projet européen LEADS (Large-Scale Elastic Architecture for Data-as-a-Service), à l’heure où la gestion des Big Data ne doit pas être uniquement une affaire de grands comptes. Coordonné par l’Université de Neuchâtel en Suisse, ce projet réunit trois autres universités et centres de recherche (Technische Universität de Dresde en Allemagne, Université technologique de Crète en Grèce et la Fundació Barcelona Media Universitat Pompeu Fabra en Espagne) associés à des sociétés technologiques comme Yahoo et Red Hat. Le groupe Adidas et la société allemande AoTerra (qui travaille sur l’efficacité énergétique) y figurent également. Le projet, démarré en octobre, est financé à hauteur de 4,25 millions d’euros sur trois ans.
Ce projet est né d’un constat, rapporte l’Université de Neuchâtel (IIUN) dans un communiqué de presse : celui de l’explosion des données publiées sur le Web. « Chaque jour, le web s’enrichit d’un contenu équivalent à huit fois le catalogue total des bibliothèques des Etats-Unis », note-t-elle. Mais, poursuit-elle, les entreprises peu expérimentées, dépourvues de compétences spécifiques ou n’ayant pas de moyens à consacrer (tant financièrement qu’en termes de compétences) à de lourds et couteux projets de gestion de données, s’en trouvent de fait écartées. « Extraire et traiter ces informations coûte cher et nécessite de gigantesques capacités de stockage et de calcul, nécessitant des centres de données abritant des milliers de serveurs. Une entreprise dont la spécialité n’est pas nécessairement l’informatique, mais qui désire extraire du web des tendances et des opinions pour un produit récemment mis sur le marché, n’a pas les moyens de le faire elle-même », ajoute l'université suisse.
LEADS vient ainsi répondre à cette problématique en proposant une judicieuse infrastructure de traitement des données en volume bâtie sur un système distribué de micro-cloud. Le tout dans un contexte de mutualisation : "d’importantes quantités de données pourront être compilées grâce au partage des collections, des stockages et des requêtes de nombreux utilisateurs", précise l'Université de Neuchâtel.
Ainsi, très concrètement, ce framework Daas (Data-as-a-service) entend proposer un mécanisme d'extraction, d'analyse et de stockage des données disponibles sur le web, couplé à un système de requêtes en temps réel via des API. Les entreprises auront également la possibilité d'interroger ces données, de les enrichir et de les raffiner avec d'autres, générées en interne et liées à leurs processus métiers. Le projet s'est ainsi - logiquement - concentré sur la confidentialité des données. Les données traitées par LEADS sont chiffrées par une clé qui n'est pas connue de l'infrastructure elle-même, indiquent les promoteurs du projet. Elles pourront également être soumises à des traitements et requêtes, eux-mêmes chiffrés. Ce projet "met en œuvre des techniques de cryptage qui n’ont été proposées que récemment ou qui seront développées au sein du projet. Ceci concerne typiquement des comparaisons, des tris, ou des extractions, qui constituent l’essence des opérations de traitement de grandes masses de données », indique Etienne Rivière, maître-assistant à l’IIUN, qui coordonne le projet.
Une approche Cloud de proximité
L'un des gros points forts de LEADS réside dans son choix d'une architecture distribuée et partagée, bâtie sur un ensemble de micro-cloud, plutôt que sur une série de datacenters dédiés. L'idée étant de rapprocher ces opérations de traitements des données au plus près des entreprises, voire de la source même des données. "Effectuer un traitement sur la partie francophone du web, mais en stocker les résultats au Brésil, n’a aucun sens. Ceci générerait d’énormes flux de données transatlantiques et très peu de connexions depuis l’Amérique latine. Situer ce même stockage dans une région à forte densité francophone serait nettement plus avantageux", note Etienne Rivière. Yahoo a notamment mis à disposition de l'université de Neuchâtel son imposante infrastructure de serveurs pour soutenir les expérimentations menées en ce sens.
De son côté, Red Hat a précisé que les résultats technologiques, qui seront accessibles à l'Open Source, pourraient servir à enrichir certains projets libres soutenus par le groupe. Et d'évoquer GlusterFS (système de fichiers en cluster), Hibernate, HibernateOGM et OpenShift Origin (la communauté Open Source derrière le Paas du groupe).