Et si vous archiviez vos données dans le cloud ?
Si les services d’archivage dans le cloud sont aujourd’hui un composant essentiel de l’offre d’infrastructure des fournisseurs IaaS, il est quelques points importants à étudier avant de se lancer à corps perdu dans la migration de grands volumes de données dans le cloud.
Par Chris Evans et Christophe Bardy.
L’une des caractéristiques intéressantes des clouds publics pour les entreprises est leur capacité à stocker simplement de grandes quantités de données sans avoir à gérer d’infrastructure en propre. Or, la plupart des organisations sont confrontées à une croissance exponentielle du volume d’informations qu’elles gèrent et ont de plus en plus de mal à administrer les infrastructures nécessaires pour stocker ces données. Pour certaines d’entre elles, le stockage en nuage est vu comme une bouée de sauvetage leur permettant de se concentrer sur la gestion de leurs données et non plus sur leur infrastructure.
Les bénéfices de l’archivage
Avant d’examiner les aspects techniques de l’archivage dans le cloud, il est utile de s’interroger sur les raisons pour lesquelles il est nécessaire d’archiver les données en premier lieu. La première motivation, la plus évidente, est la réduction des coûts ; les systèmes de stockage primaire accueillent aujourd’hui de grandes quantités d’informations inactives et rarement consultées, qui n’ont pas vraiment de raison de se trouver sur un stockage primaire coûteux. Déplacer des données hors de l’environnement de production peut avoir un impact significatif sur d’autres coûts, et générer des économies sur les licences de base de données, une réduction du nombre machines virtuelles ou du nombre d’hôtes physiques chargés de gérer ses données.
Le problème est qu’un nombre croissant d’entreprises répugnent à effacer des données et cherchent plutôt à les conserver les données « pour toujours » - ou du moins pour une très longue période - en espérant qu’elles pourront extraire une valeur de ces données à l’avenir. Dans certains cas, les contraintes réglementaires exigent que les données soient préservées pendant de longues périodes (des décennies) comme c’est le cas pour la documentation technique des avions, les dossiers médicaux, les informations des caisses de retraite, etc.
Il y a aussi des bénéfices opérationnels à la migration de grands volumes de données hors des systèmes de stockage primaires. Plus un système gère de données et plus les processus de sauvegarde ou de restauration sont longs et plus la volumétrie des sauvegardes est importante. Il n’y a aucun avantage à sauvegarder continuellement des données qui ne changent jamais lorsqu’elles peuvent être archivées à partir de systèmes primaires et stockées et protégées d’une manière différente. La performance des systèmes de production peut également être affectée par le volume de données gérées. Il peut être coûteux de gérer une base de données de 100 millions de lignes, comparativement à une base de données de seulement cinq cent mille lignes actives, par exemple.
Pourquoi envisager l’archivage dans le cloud ?
Si l’intérêt de l’archivage est facile à comprendre, nombre d’entreprises se posent toutefois des questions sur la pertinence du cloud comme destination cible. Il existe un certain nombre d’avantages opérationnels inhérents à l’utilisation des services en nuage qui en font une destination attrayante pour les données d’archives :
- Elasticité. Le cloud permet de garantir que la capacité d’archivage est toujours disponible pour répondre à la demande. Le client consomme simplement la ressource en présumant que la capacité utilisable est infinie. Il n’est plus nécessaire de se préoccuper de l’espace disponible dans le datacenter ou de gérer les questions d’alimentation, de refroidissement ou d’approvisionnement de nouveaux nœuds de stockage.
- Le client n’a pas besoin de savoir comment les données sont stockées dans le cloud, mais seulement que le service est rendu par le fournisseur de cloud à un niveau de service convenu. Les données peuvent être stockées sur disque, bande ou support optique ou n’importe quelle combinaison. Le fournisseur de cloud prend la responsabilité de la gestion et de la mise à jour des supports de stockage et de l’infrastructure associée au fil du temps.
- Durabilité. La résilience du stockage primaire est mesurée en termes de durabilité des données et de temps de disponibilité du système. Les fournisseurs annoncent typiquement des chiffres de cinq, six ou maintenant sept 9 pour la disponibilité. Le niveau de durabilité est plus élevé puisqu’il est usuellement de onze 9, soit 99,999 999 999 999 9 %.
- Coût. Le coût du stockage en nuage est habituellement basé sur le volume de données stockées, le nombre d’opérations effectuées sur les données et le volume de transfert sortant.
Évaluer les questions de sécurité et de conformité avant d’archiver dans le cloud
La préoccupation première au sujet d’une archive en nuage est probablement celle de la sécurité. Comment mes données seront-elles sécurisées à la fois en transit sur le réseau et au repos une fois qu’elles atteindront le centre de données du fournisseur de services ? Le problème du transit est facilement résolu, car les données sont habituellement transmises via le protocole HTTPS (Hypertext Transfer Protocol Secure) donc via un tunnel chiffré.
La plupart des fournisseurs chiffrent également les données stockées dans leurs nuages. Afin de garantir un niveau de sécurité supplémentaire, les clients peuvent fournir leurs propres clés de chiffrement (ou utiliser leur propre gestionnaire de clé au standard KMIP). Alternativement, les données peuvent être chiffrées avant d’être envoyées dans le nuage. Le choix de l’option de cryptage est dicté par le profil de risque du client ainsi que par les règles de conformité auxquelles il est soumis.
Il est à noter que des contraintes réglementaires additionnelles peuvent s’imposer à des clients pour l’archivage de leurs données en cloud comme la conformité aux règlements de la haute autorité de santé pour le stockage des données patient, par exemple, ou comme l’obligation de stocker les données dans des datacenters en France, pour les administrations et les acteurs de la sphère publique.
Archives dans le nuage = pas de casse-tête matériel
L’archivage en nuage élimine les maux de tête associés à la planification et à la maintenance d’archives volumineuses, tels que les mises à jour régulières du matériel et des formats de données.
La deuxième question à considérer est celle de la performance, c’est-à-dire la rapidité avec laquelle les données peuvent être stockées et récupérées à partir du nuage. Selon le type de connectivité en place, la latence ou le temps d’aller-retour pour écrire des données dans le nuage peut atteindre 20 à 30 millisecondes. Ce niveau de temps de réponse est bon pour les transferts séquentiels, mais pas si bon pour l’accès « aléatoire ». En réalité, la plupart des processus d’archivage n’auront pas de problèmes de latence, car ils travaillent sur le stockage et la récupération de grands volumes de données. Mais il convient de mesurer si cette latence accrue n’aura pas de conséquences en cas de mise à jour fréquente des métadonnées.
Deux autres problèmes affectent la performance de l’accès aux données. Premièrement, les fournisseurs eux-mêmes peuvent imposer des restrictions d’accès. Glacier d’Amazon Web Services, par exemple, offre une alternative moins coûteuse à son service S3 standard (Simple Storage Service). Mais la contrepartie est un processus d’accès par étapes qui peut nécessiter 3 à 5 heures avant de pouvoir accéder aux données. Les frais d’extraction de données de Glacier sont également conséquents. Google Cloud Storage Nearline, quant à lui, offre des temps de réponse (ou d’accès au premier octet) d’environ trois secondes pour les données d’archivage à long terme.
Chez tous les offreurs, il y a clairement un compromis entre le choix du bon prix du service et la performance qu’il offre.
Un dernier point à considérer est l’accessibilité et le mécanisme d’ingestion dans les archives en nuages. Les plates-formes cloud s’appuient généralement sur des stockages objet. Les données à archiver, peuvent être des données structurées (comme une base de données), des données semi-structurées (comme des courriels) ou des fichiers non structurés. Chacun de ces formats de données sera associé à des métadonnées utilisées pour en décrire le contenu.
Pour transférer ces différents « objets », une solution consiste à utiliser des produits qui servent de passerelles ou de plates-formes d’archivage pour faire le pont entre le format local et le format d’archivage. Amazon AWS propose ainsi une passerelle pour ingérer des données dans S3 via des protocoles blocs ou NAS. EMC propose son appliance CloudBoost tandis que Microsoft peut s’appuyer sur StorSimple. On peut également citer les outils de Nasuni ou la solution Altavault de NetApp. Tous ces produits sont des conduits vers le stockage en nuage et ne s’intègrent pas directement à une application particulière. Cependant, ils offrent un protocole plus consommable (SMB, NFS ou iSCSI) pour verser des données dans une archive et ils peuvent aussi servir de cache local pour améliorer les performances d’accès au cloud.
D’autres outils comme ceux de Komprise, Aptare ou StrongBox, peuvent être utilisés pour assurer la migration automatisée de données dormantes depuis des baies de stockage vers les services cloud (voir à ce propos notre dossier sur les outils SRM - Storage Ressource Management - dans le numéro 11 de STORAGE). Des solutions open source d’archivage comme la plate-forme iRods (Integrated Rule-Oriented Data System) sont également à même d’utiliser le cloud aussi bien qu’un service de stockage local pour l’archivage des données qu’elles gèrent. Il en va de même pour des solutions historiques d’archivage comme la plate-forme d’archivage compatible SAM-QFS de Versity, la plate-forme StorNext de Quantum ou la solution HPE DMF (ex SGI DMF).
La question du coût de stockage
Le principal débat autour de l’archivage en cloud est son coût à long terme. Ce coût est facteur du volume de données stockées et des profils d’accès (et il ne faut pas non plus sous-estimer le coût de l’infrastructure réseau à mettre en place pour assurer le lien vers le cloud).
Comme plus de données sont stockées et rappelées à partir des archives, les coûts mensuels augmentent. Les organisations informatiques doivent être prêtes à refacturer les coûts à leurs utilisateurs finaux (le cas échéant), ce qui implique la création de politiques de conservation et de récupération des données, ainsi que le partitionnement des données d’archives dans des référentiels logiques (comme les chambres fortes) qui peuvent être gérées individuellement.
Au-delà d’un certain volume de données, il n’est pas évident qu’un stockage cloud soit moins coûteux qu’un système de stockage interne bien géré et il faut donc bien évaluer les coûts avant de se lancer, car la sortie en masse de données du cloud en cas de décision de rapatriement de l’archive en interne pourrait être non négligeable. L’exemple extrême est celui de DropBox, qui en migrant 500 Po de données hors du cloud d’Amazon sur sa propre infrastructure estime réaliser des économies de 60 millions de dollars par an.
Pour faire un petit cocorico, l’une des façons d’économiser de l’argent est de s’appuyer sur les services des acteurs français du cloud, dont les tarifs sont inférieurs à ceux des géants US. OVH Cloud Archive, le service d’archivage d’OVH basé sur OpenStack Swift, n’a ainsi pas les limitations d’un service comme Glacier et est facturé 0,002 € par Go et par mois (une surcharge de 0,011 5 € par Go est aussi prélevée à l’ingestion et à l’extraction de données). Ce prix est à comparer aux 0,004 $ par Go et par mois de Glacier (non compris les coûts d’extraction de 0,01 $ — mode standard — et de 0,03 $ — mode accéléré — par Go).
Le Français Online (filiale cloud d’Iliad) propose quant à lui un service d’archivage très particulier, baptisé C14, accessible via FTP, SFTP, Rsync ou SCP et avec des garanties de débits. Comme avec Glacier, il faut quelques heures pour débloquer les données d’une archive. Mais les prix sont les plus faibles du marché avec un premier prix à 0,002 € par Go et par mois, et un coût de 0,01 € par opération de désarchivage (offre standard). Pour mémoire, nous avons apporté un regard plus détaillé sur l’offre d’OVH et d’Online dans l’édition n° 15 de STORAGE.
Il est à noter que certains outils peuvent aussi permettre de réduire les coûts de stockage dans les services objets des grands clouds publics. Par exemple, les passerelles de StorReduce (récemment acquis par Pure Storage) permettent de dédupliquer et de compresser les données des systèmes de stockage objet (en cloud ou non). Ces passerelles, qui agissent comme des proxys transparents de déduplication permettent de réduire considérablement le volume des données stockées (StorReduce avance des taux de réduction allant de 80 à 97 %), mais également le volume de données transféré. Il est à noter que StorReduce ingère des données au protocole S3, mais peut s’interfacer avec de multiples back-end de stockage dont les stockages objet compatibles S3, Azure Blob et Google Cloud Storage.