Seagate dope son système de stockage HPC ClusterStor à Hadoop et Lustre 2.5
Lors de SuperComputing 14, Seagate a enrichi sa baie de stockage en cluster ClusterStor avec une nouvelle mouture de Lustre, et une passerelle pour Hadoop.
Seagate Technology a profité du salon SuperComputing ‘14, qui se tenait à la Nouvelle Orléans du 16 au 21 novembre, pour dévoiler une nouvelle version de son système ClusterStor, hérité du rachat de l’anglais Xyratex. Parmi les ajouts significatifs figurent notamment un nouvel accélérateur pour Hadoop ainsi que des mises à jour Lustre et une version sécurisée conforme au standard US ICD 503 (Intelligence Community Directive 503).
Plutôt connu pour ses disques durs et ses composants Flash, Seagate est revenu dans le monde des baies de stockage via l’acquisition cette année de Xyratex. Cet ensemblier connu pour ses sous-systèmes de stockage est un fournisseur OEM de constructeurs comme HP, Dell ou Cray - et aussi de LaCie, rachet lui aussi par Seagate -, mais il s’est aussi illustré au cours des dernières années avec ses systèmes de stockage ClusterStor pour le monde du HPC. ClusterStor est vendu via des partenaires comme HP, Dell ou Cray (sous la marque Sonexion) et Seagate vient de nouer un accord avec SGI qui revendra ses appliances ClusterStor 1500, 6000 et 9000 ainsi que la toute nouvelle ClusterStor Secure Data Appliance (SDA).
L’intérêt de Seagate pour le marché HPC n’est pas une surprise. Le marché du stockage HPC est celui qui progresse le plus vite dans le monde. Selon IDC, le marché du stockage pour le HPC devrait peser 4 Md$ en 2018. 29% des sites HPC utilisent déjà Hadoop pour de l’analytique Big Data (ce qui explique la sortie du ClusterStor Hadoop Workflow Accelerator).
Permettre à Hadoop d'accéder aux données directement sur le système de fichiers Lustre
Le ClusterStor Hadoop Workflow Accelerator inclut des outils d’optimisation et un connecteur Hadoop vers Lustre permettant aux nœuds Hadoop de lire et écrire des données sur un ClusterStor faisant tourner le système de gestion de fichiers distribué Lustre.
L’objectif, comme l’explique Steve Paulhus, directeur du business development chez Seagate, l’idée est de permettre d’utiliser le même jeu de données pour effectuer les traitements analytiques sans avoir à dupliquer les données dans un second espace de stockage dédié (ce qui double les coûts de stockage). Avec le ClusterStor Hadoop Workflow Accelerator, il est possible d’utiliser le même espace de stockage pour des calculs techniques et des opérations analytiques. Un bénéfice additionnel est d’éviter le surcoût d’Hadoop en matière de protection de données. Au lieu d’utiliser HDFS, qui conserve trois copies séparées de chaque objet, ClusterStor utilise un mécanisme Raid traditionnel ou son mécanisme GridRAID, qui permet de bénéficier d’un haut niveau de protection tout en disposant de 80% de l’espace de stockage brut disponible pour le stockage. GridRAID offre selon Seagate des performances supérieures au Raid traditionnel tout en divisant par 4 la fenêtre de reconstruction de disque en cas de défaillance d’un disque.
Selon Paulhus le ClusterStor Hadoop Workflow Accelerator est une extension gratuite de ClusterStor. Dans un premier temps, il fonctionne avec la distribution open Source d’Apache, mais des intégrations renforcées sont aussi prévues pour les principales distributions commerciales. Seagate annonce aussi son intention de contribuer au développement du code du connecteur Apache Hadoop sur Lustre à la communauté open source. La société prévoit aussi de publier le code source d’un patch permettant aux processus Map et Reduce de partager des fichiers afin de rendre possible l’émergence de cluster Hadoop sans disques.
Meilleure gestion des métadonnées et support du HSM
Lors de la conférence Supercomputing 14, Seagate a aussi lancé la version 2.0 de ClusterStor Engineered Solution for Lustre, dont la grande amélioration est l’accroissement significatif des performances en gestion des métadonnées.
Le code est basé sur la version open source 2.5 de Lustre et permet aux clients d’ajouter jusqu’à 16 serveurs de métadonnées pour supporter jusqu’à 16 milliards de fichiers au sein d’un système de fichiers unique. La nouvelle mouture supporte aussi un nouveau framework de stockage hiérarchique (HSM ou hierarchical storage Management) pour permettre la gestion de migrations de données de disque à disque ou de disque vers bande.
Enfin, Seagate a profité de la conférence pour dévoiler une variante sécurisée de son appliance, le ClusterStor SDA, qui supporte plusieurs niveaux de sécurité et d’accès aux données. Selon Seagate, le produit se conforme aux spécifications Intelligence Community Directive (ICD) 503 (cf. aussi le PDF de l’ICD 503).
Le ClusterStor SDA supporte l’authentification Kerberos pour permettre le chiffrement à clé symétrique. Le produit fournit un framework pour permettre la gestion des clés de chiffrement et sécuriser le trafic entre les postes clients et le stockage. ClusterStor SDA avec Kerberos est attendu pour le mois de décembre.