Western Digital s'allie à StorReduce pour ajouter la déduplication au stockage objet
Le constructeur américain a noué une alliance StorReduce pour proposer une solution de stockage objet dédupliquée destiné au marché de la sauvegarde. Elle combine ses appliances de stockage objet ActiveScale et les appliances de déduplication en mode scale-out de la start-up.
Western Digital a noué un accord de revente avec StorReduce, qui va lui permettre d’associer la technologie de déduplication de données inline de l’éditeur à ses appliances de stockage objet A.
Le premier marché visé par le constructeur est celui de la sauvegarde et de la protection de données. En associant le logiciel de déduplication de StorReduce avec ses baies de stockage objet ActiveScale, Western Digital va offrir une alternative séduisante aux appliances de sauvegarde dédupliquées, comme celles commercialisées par Dell EMC, HPE ou Quantum.
Selon Stefan Vervaet, le directeur des alliances stratégiques et du développement de la division systèmes de stockage de Western Digital, une solution de sauvegarde couplant StorReduce et ActiveScale permet d’économiser en moyenne 45 % par rapport à des appliances traditionnelles.
StorReduce : une technologie de déduplication distribuée pour le stockage objet
La technologie de StorReduce est séduisante. Le logiciel de la firme peut être déployé sur un serveur physique ou sous forme de VM dans un datacenter d’entreprise ou dans un cloud public. Chaque appliance agit comme une passerelle de déduplication entre les serveurs et le stockage objet cible. Les appliances sont stateless, ce qui permet de les déployer en cluster (avec un maximum de 31 appliances).
L’ensemble des communications entre serveurs de sauvegarde et appliance s’effectue via le protocole S3, qui est également le protocole privilégié pour accéder au back-end de stockage (les APIs Microsoft Azure Blob Storage et Google Cloud Storage sont aussi supportées). Selon StorReduce le back-end de stockage peut être une baie de stockage objet, un service de stockage en cloud ou une combinaison des deux. Dans ce dernier cas, il est possible pour une entreprise de sauvegarder ses données en local puis de répliquer ou de cloner ses sauvegardes vers le cloud.
L’ensemble des données ingérées par les appliances est tout d’abord traité par un algorithme de déduplication inline en mode variable, puis compressé afin d’obtenir le taux de réduction de données le plus élevé possible. Selon StorReduce, ce traitement ajoute un maximum 50 ms de latence entre le serveur et le stockage.
Pour fonctionner, chaque appliance requiert un espace tampon sur SSD utilisé pour le stockage des index et des métadonnées de déduplication. Lorsque plusieurs appliances sont réunies au sein d’un cluster, ces informations sont distribuées et redondées à l’échelle du cluster afin de se protéger contre la défaillance éventuelle d’un nœud.
Un log complet des transactions est également stocké au fil de l’eau sur le stockage objet pour permettre de reconstruire l’index en cas de sinistre affectant l’ensemble des nœuds. Le processus de reconstruction de l’index étant consommateur en temps, l’index de déduplication est aussi périodiquement snapshoté et répliqué sur le stockage objet afin d’accélérer la reconstruction. Cette « astuce » permet de n’avoir à reconstruire que la partie de postérieur au snapshot le plus récent.
Des performances qui croissent avec le nombre de nœuds
Au sein d’un cluster, la performance d’ingestion et d’accès des appliances évolue quasi linéairement avec le nombre de nœuds. Un cluster d’appliances StorReduce est vu comme un namespace global dédupliqué unique et peut gérer un back-end de plusieurs centaines de pétaoctets de données (chaque appliance gère au maximum 80 Po de données dédupliquées).
Selon StorReduce, chaque appliance offre un débit de déduplication de l’ordre de 2 Go/s (env. 7, 2 To/h), aussi bien en ingestion qu’en restitution, soit un débit d’un peu plus de 60 Go/s (216 To/s) pour un cluster. Bien sûr, pour que ces débits soient soutenus, il est nécessaire que le back-end de stockage et le réseau soient dimensionnés en conséquence.
Par comparaison, le plus performant des systèmes DataDomain peut gérer un maximum de 50 Po de données de sauvegarde et affiche une performance en ingestion de 68 To/s lorsque l’on met en œuvre la déduplication à la source (DDBoost) et de 31 To/s sans DDBoost.
Selon Western Digital, la solution couplant ActiveScale et StorReduce est certifiée avec de nombreux logiciels de sauvegarde, dont Veritas NetBackup, Backup Exec, Commvault Simpana, Veeam et EMC Networker.
Des ambitions au-delà du backup
Si Western Digital convoite prioritairement le marché du remplacement des appliances de sauvegarde dédupliquées grâce à son alliance avec StorReduce, la firme indique que quelques-uns de ses premiers clients utilisent le couple ActiveScale StorReduce pour le stockage secondaire de données faiblement actives ou comme stockage de back-end pour certaines données de leurs clusters Hadoop.
Le stockage massif de log dédupliqués sur un stockage ActiveScale permet par exemple de réduire considérablement le coût du stockage ainsi que l’espace physique occupé par le stockage, sans impact majeur sur les performances. Western Digital a d’ailleurs contribué à la communauté Apache Hadoop plusieurs optimisations pour le client S3A, qui permet à un cluster Hadoop d’accéder aux données stockées sur un stockage objet S3. La firme travaille aussi avec Microsoft pour faire de même avec un cluster Hadoop sous Windows.
Plus généralement, Stefan Vervaet estime qu’un stockage Objet dédupliqué peut être intéressant pour tous les clients qui jusqu’alors stockaient des données sur bande et souhaitent les avoir sur disque pour des usages Big Data.
L’utilisation de StorReduce en frontal d’une appliance ActiveScale ajoute un coût logiciel d’environ 7 cents par gigaoctet (prix catalogue), un coût qui va décroissant avec la volumétrie. Pour mémoire, la capacité de stockage minimale d’un système ActiveScale est de 480 To.