echiechi - Fotolia

L’essentiel sur IBM BigInsights

IBM BigInsights accole des scenarii d’usage liés à l’analytique et à la data science à une distribution Open Source d’Apache Hadoop.

IBM BigInsights est la distribution Enterprise du socle Hadoop de Big Blue. Au framework Java, IBM y associe des composants destinés aux entreprises, le tout distribué dans une plateforme unique présentée logiquement comme une solution permettant de gérer et d’analyser de grands volumes de données, tant structurées que non structurées.

IBM BigInsights embarque certains outils avancées d’analytique comme  BigSheets pour l’exploration de données ou encore Big SQL, un moteur SQL pour interroger les données stockées dans un cluster Hadoop. Les fonctions réservées aux entreprises sont censées améliorer le développement d’applications et le déploiement de l’ensemble du système, ainsi que les performances, les capacités de dimensionnement et la sécurité notamment.

Dans sa version 4.1, la solution comprend IBM Open Platform avec Apache Hadoop, ainsi que plusieurs modules pré-intégrés qui comprennent des fonctions avancées et propriétaires, centrées sur des cas d’usage particuliers.

IBM Open Platform avec Apache Hadoop , est la distribution cœur d’Hadoop proposée par IBM, et intègre les composants Open Source suivants : Ambari (2.1), Apache Kafka (0.8.2), Flume (1.5.2),Ganglia (3.1.7), Hadoop ( 2.7.1), HBase (1.1.1), Hive (1.2.1), Knox (0.6.0), Lucene (4.7.0), Nagios (3.5.1), Oozie (4.2.0), Parquet (4.0), Parquet MR/format (1.6.0/2.2), Pig (0.15.0), Slider (0.80.0), Solr (5.1.0), Spark (1.4.1), Sqoop (1.4.6.), Terada Connector for Hadoop (1.4) and Zookeeper (3.4.6).

Ces modules avancés sont :

  • IBM BigInsights Analyst propose des outils spécifiques pour l’analyse de données. On retrouve BigInsights Home Service, une interface pour lancer les composants de la solution ainsi que Big SQL et BigSheets
    • Big SQL est un moteur SQL avancé qui propose d’exploiter les compétences internes SQL pour accéder rapidement aux données d’un cluster d’Hadoop. Une seule requête permet d’interroger par exemple Hive, HBase, ou HDFS. Cela est possible via une technologie de traitement massivement parallèle. La solution permet également de fédérer des requêtes vers IBM DB2, Oracle, Teradata et Open Database Connectivity.
    • BigSheets permet quant à lui d’explorer et de transformer  des données et de créer des visualisations à partir de grands volumes de données stockées dans Hadoop, mais via une interface Web, identique à celle d’un tableur. L’outil traduit en fait les actions de l’utilisateur en fonctions MapReduce.
  • IBM BigInsights Data Scientist  permet aux personnes douées de compétences avancées en analyse de données, d’aller plus loin dans la manipulation des données du cluster. En plus des modules apportés par le module Analyst, cet outil propose également :
    • Big R est en fait un ensemble de bibliothèques pour les adaptes du langage R. Cela permet d’utiliser ce langage et ses fonctions sur les données mêmes d’un cluster BigInsights. Avec R, les utilisateurs ont donc la possibilité d’effectuer des opérations complexes sur un grand volume de données, tout en masquant la complexité de MapReduce.
    • Text Analytics est un outil intuitif qui permet d’extraire l’information de textes non structurés ou semi structurés.
    • SystemML s’appuie sur la syntaxe de R pour effectuer des opérations statistiques et de Machine Learning.  L’outil distribue les algorithmes afin qu’ils soient exécutés sur les nœuds du cluster via MapReduce ou Spark (en mémoire donc). IBM a contribué SystemML à la communauté Open Source. Le projet est désormais dans l’incubateur Apache.
  • IBM Enterprise Management apporte des fonctions de classe entreprise pour dimensionner et contrôler (sécurité, fiabilité) le cluster et monitorer les performances en utilisant les capacités de parallélisme et de gestion des applications en grille. IBM Enterprise Management comprend également IBM Spectrum Scale-FPO, un système de fichier compatible POSI qui peut remplacer HDFS. Avec ce système de fichiers, les administrateurs optimisent leur capacité de contrôle et d’intégration aux autres systèmes de l’entreprise. Ce module comprend également IBM Platform Symphony pour gérer plusieurs instances et la séparation des données en environnements multi-tenant.
  • IBM BigInsights pour Apache Hadoop  englobe enfin tout ce que proposent les 3 modules listés au-dessus.

Les modules de BigInsights fonctionnent sur des serveurs Linux. Si ceux-ci peuvent être installés sur site, Big Blue propose également BigInsights dans le Cloud, un Hadoop-as-a-service qui s’adosse à l’infrastructure du groupe. Cette formule héberge toutes les fonctions de BigInsights dans un environnement managé 24/7.

IBM BigInsights : Licence et distribution

Open Platform avec Apache Hadoop est disponible en Open Source. Les modules BigInsights, eux, nécessitent l’achat de licences IBM dès que l’on souhaite passer en production. IBM propose BigInsights Quick Start qui permet d’ailleurs d’évaluer l’étendue des possibilités de la solution.

IBM est un membre fondateur de l’Open Data Platform Initiative, qui rassemble plusieurs industriels et éditeurs clé du monde Hadoop. Ils ont décidé de s’unir pour favoriser l’interopérabilité des outils Big Data.

 

Pour approfondir sur Big Data et Data lake