Appliance Hadoop, urbanisation des données : IBM mène l'offensive dans le Big Data
Big Blue annonce une salve de nouvelles technologies pour simplifier l'implémentation des applications Big Data. Au menu : un serveur spécialisé PureSystems conçu pour le framework Hadoop et une somme de technologies d'accélération pour gérer des environnements mélangeant In-Memory et stockage traditionnel.
Lancée en octobre dernier, la famille des PureData Systems d'IBM, des systèmes intégrés spécialisés dans la manipulation de données, s'agrandit. Big Blue vient en effet d'annoncer une déclinaison de son appliance pour le framework Open Source Hadoop. Ce PureData System for Hadoop, dont la commercialisation n'interviendra qu'au troisième trimestre, vise à accélérer le déploiement du framework en entreprise, via une intégration pré-paramétrée avec des outils analytiques et de visualisation de données. Le nouveau système intègre évidemment InfoSphere BigInsights, la version maison de Hadoop conçue pour faciliter le développement d'applications Big Data en entreprise via notamment une interface SQL. Le serveur inclut encore des outils de monitoring, de développement et d'intégration avec d'autres systèmes de l'entreprise.
Pour répondre à l'accroissement du volume des données traitées par les organisations, plusieurs autres constructeurs ou éditeurs se sont lancées dans la fourniture de serveurs spécialisés. C'est notamment le cas d'Oracle avec les machines Exa (Exadata, Exalogic, Exalytics). L'éditeur ambitionne de réaliser, sur son année fiscale en cours, plus de deux milliards de dollars de chiffre d'affaires avec cette seule activité. C'est encore la voie choisie par SAP qui, avec des partenaires constructeurs, livre un système de gestion de données In-Memory, Hana.
Big BLU pour Big Blue
Dans la même volonté d'accélérer les analyses de données structurées et non structurées, issues d'origines diverses - la raison d'être des applications Big Data -, IBM dévoile en parallèle un ensemble de technologies baptisé BLU Acceleration. Décrit comme le fruit du "travail de centaines de développeurs et chercheurs IBM répartis dans des labos partout dans le monde", BLU est censé accélérer les analyses tout en facilitant l'administration des applications.
Dans un communiqué, IBM explique que l'objectif de ce set de technologies réside dans l'urbanisation des données, entre des systèmes In-Memory aux capacités forcément limitées et du stockage sur disque pour les données "froides", afin d'améliorer les performances globales. Dans un communiqué, Big Blue explique : "au cours de tests, certaines requêtes sur des applications analytiques classiques ont fonctionné plus de 1000 fois plus rapidement en utilisant les technologies de BLU Acceleration".
Parmi les techniques employées, Big Blue cite le "data skipping" (capacité à ignorer des données qui ne seraient pas pertinentes pour une analyse), la parallélisation des calculs sur plusieurs processeurs ou encore la faculté à analyser des données sans les décompresser. Autant de technologies qui pourraient s'avérer cruciales ; le cabinet d'études Gartner estime en effet que l'informatique In-Memory est en train de sortir des quelques marchés où elle était jusqu'alors cantonnée pour se diffuser à de nouveaux usages.
Cinq usages du Big Data
IBM explique que les technologies BLU Acceleration sont déjà en service au sein de BNSF Railway Company, un opérateur de fret ferroviaire gérant plus de 1 400 trains dans 28 états américains et 2 provinces canadiennes. La société utilise ces technologies pour accélérer ses analyses portant sur la maintenance, la météo, les horaires, les données de sécurité, les livraisons, etc.
Selon le directeur général de la branche gestion de l'information d'IBM, Bob Picciano, ces annonces résultent des "milliards investis par IBM au cours des cinq dernières années afin de libérer le potentiel du Big Data". Et le dirigeant d'identifier 5 usages majeurs du Big Data : la compréhension des attentes des clients dans la distribution, la détection de fraudes, les gains d'efficacité opérationnelle dans l'IT, l'analyse de capteurs ou machines connectés (comme les compteurs intelligents) et l'intégration de nouvelles sources de données, comme les fils Twitter, aux bases de données existantes.