Fotolia
Archivage en Cloud : les points à considérer avant de se lancer
L’archivage est souvent cité comme la « killer app » du stockage en cloud. Mais avant d’envoyer vos données dans les limbes, il est important d’étudier quelques points essentiels avec prudence.
L’un des atouts les plus intéressants des services de stockage en cloud public est leur capacité à archiver facilement de grands volumes de données, sans avoir à se préoccuper du casse-tête de la gestion de l’infrastructure sous-jacente. Au vu de la croissance exponentielle des données dans la plupart des organisations, la gestion du stockage peut être une corvée chaotique, qui impose de mettre à jour régulièrement ses technologies et ses capacités.
Du fait de ses caractéristiques, le stockage en cloud est potentiellement une bouée de sauvetage pour les départements informatiques souhaitant s’extraire de la gestion des infrastructures pour se concentrer sur la gestion des données.
La question est alors de savoir si le fait d’archiver ses données dans le cloud est vraiment un service unique et de vérifier que les efforts consentis pour utiliser une archive en nuage ne sont pas supérieurs aux avantages escomptés.
Petits rappels sur quelques bénéfices de l’archivage de données
Avant d’examiner les aspects techniques de l’archivage en nuage, il est sans doute bon de rappeler pourquoi il est nécessaire d’archiver ses données en premier lieu.
Dans certains cas, la conservation des données est dictée par des contraintes réglementaires (aviation, données médicales…) ou par des obligations métiers (retraite, assurance vie…). Mais pour la plupart des utilisateurs, la raison la plus évidente est financière : les systèmes de production (bases de données, fichiers et données non structurées) hébergent de grandes quantités d’informations inactives et rarement accessibles, dont la totalité est stockée sur un stockage primaire coûteux. On entend de plus en plus les entreprises expliquer qu’elles cherchent à conserver les données "pour toujours" — ou tout au moins pour un temps très long — sur l’hypothèse qu’il existe une certaine valeur future à extraire de ces données. Mais cette conservation à perpétuité a un coût de plus en plus insupportable. Archiver des données sur des systèmes de stockage moins coûteux que les systèmes de stockage primaires est donc une saine pratique.
Il est à noter que cela peut également avoir un impact favorable sur les coûts autres que le stockage. Dans certains cas, on peut réaliser des économies significatives sur les licences de bases de données ou sur certaines licences liées au volume de données gérées. On peut aussi économiser sur les coûts de l’infrastructure nécessaire à faire tourner les applications (plus petites machines virtuelles ou hôtes physiques).
Il y a aussi des bénéfices opérationnels à considérer. Lorsque l’on archive des données, les processus de sauvegarde et de restauration des systèmes de production sont plus rapides et consomment moins d’espace sur les stockages de protection. Il n’y a aucun avantage à sauvegarder continuellement des données qui ne changent jamais, quand ces dernières peuvent être archivées hors des systèmes primaires et stockées et protégées d’une manière différente.
Au passage, cela peut être l’occasion d’optimiser les performances des systèmes de production. Cela consomme beaucoup plus de ressources d’accéder ou de stocker des données dans une base de données avec 100 millions de lignes que dans une base avec seulement cinq cent mille lignes, par exemple.
Pourquoi vous devriez envisager l’archivage dans le cloud
Les bénéfices de l’archivage sont donc faciles à comprendre. La question suivante à se poser est : pourquoi choisir le cloud comme destination cible ?
Il y a en fait un certain nombre d’atouts opérationnels, qui sont inhérents à l’utilisation des services cloud et qui en font des destinations attrayantes pour les données d’archives. Ceux-ci incluent :
- L’élasticité. Le fournisseur de stockage cloud a en charge de faire en sorte que la capacité d’archivage soit toujours disponible pour répondre à la demande, vous libérant du casse-tête de la gestion des capacités. Le client consomme simplement la ressource sur l’hypothèse qu’il existe une capacité infinie disponible. Il n’est plus nécessaire de penser à réserver plus d’espace dans votre datacenter, de prévoir l’alimentation électrique, le refroidissement ou les aspects physiques,etc.
- L’abstraction. Le client n’a pas besoin de se préoccuper de la technologie utilisée pour stocker les données dans le nuage, mais seulement des conditions dans lesquelles le service est délivré par le fournisseur en fonction des SLA négociés. Cela signifie que les données peuvent être sur disque, bande optique ou toute combinaison. Le fournisseur de cloud prend la responsabilité de la gestion et de l’actualisation des supports de stockage et des infrastructures connexes au fil du temps.
- La durabilité. La résilience du stockage primaire est mesurée en termes de disponibilité. On voit régulièrement cités des chiffres de cinq, six ou sept « 9 », ce qui signifie 99,999 % de disponibilité ou mieux. Dans le monde de l’archivage, l’accent est plutôt mis sur la durabilité, la disponibilité étant en général moins importante. Cela est cohérent avec le fait que les données sont censées être consultées plus rarement, mais qu’il faut les protéger dans le temps pendant 5, 10, 20 ou 50 ans. L’offre S3 Infrequent Access d’Amazon Web Services propose par exemple, des niveaux de durabilité de 99,999999999 % ou onze « 9 », mais des taux de disponibilité contractuels de 99,9 %.
- Coût. Le coût de stockage en nuage est prévisible et fondé sur le profil d’accès et le volume des données stockées (voir plus loin), ce qui rend de façon générale la refacturation et la comptabilité plus facile.
A priori, il y a donc du sens à archiver ses données dans le cloud. Encore faut-il que les équipes d’exploitation de l’entreprise puissent envoyer les données vers le cloud et les en extraire selon des mécanismes qui répondent aux opérationnelles de l’entreprise.
Les points à étudier avant de se lancer dans l’archivage en cloud
La préoccupation la plus évidente lorsque l’on souhaite bâtir une archive en nuage est celle de la sécurité. Comment la protection de mes données sera-t-elle assurée à la fois durant le transit à travers le réseau et au repos une fois que ces données sont dans le centre de données du fournisseur de service ?
La question du transit est facilement résolue. Le transfert se faisant en général via des protocoles web au-dessus d’un lien sécurisé via HTTPS (chiffrement SSL), les données transférées à travers le réseau public seront en sécurité en vol.
D’autre part, la plupart des fournisseurs offrent désormais la possibilité de chiffrer les données stockées dans leurs nuages.
Afin de disposer d’un niveau de sécurité supplémentaire, les clients peuvent fournir leurs propres clés de chiffrement à utiliser par le fournisseur pour chiffrer les données pour le compte du client.
Alternativement, les données peuvent être chiffrées par l’entreprise avant de les envoyer dans le Cloud.
Le choix de l’option de chiffrement est dicté par le profil de risque du client. Pour certains, le chiffrement proposé par le fournisseur peut être suffisant, alors que les règles de conformité - ou la simple paranoïa - peuvent dicter l’utilisation de clés de chiffrement personnelles. Dans ce cas, le client doit maintenir les clés pour une future recherche de données, ce qui peut être un effort important si elles sont destinées à être stockées pendant de nombreuses années.
La seconde grande question à prendre en compte est celle des performances.
Il faut par exemple se préoccuper du débit auquel les données peuvent être stockées dans le cloud mais aussi du temps nécessaire pour les récupérer en cas de besoin. Selon le type de connectivité en place, le temps de latence ou le temps d’aller-retour pour écrire des données pourrait atteindre 20 à 30 millisecondes, voire plus.
Ce niveau de temps de réponse est très bien pour les transferts séquentiels, mais mal adapté pour des accès plus "aléatoires".
Dans la pratique, la plupart des processus d’archivage n’auront pas de problème avec une latence un peu élevée pour déverser de grandes quantités de données dans le cloud. Mais des opérations comme la mise à jour de métadonnées, ou l’extraction sélective de données, pourraient être plus problématiques.
Ces problèmes de latence peuvent être réduits par la mise en place de liens privés directs vers votre fournisseur de cloud. Mais il faudra alors factoriser leur coût dans la solution globale.
Deux autres questions affectent les performances d’accès aux données. Tout d’abord, les fournisseurs eux-mêmes peuvent imposer des restrictions sur l’accès. Glacier, le service de rétention de données à long terme d’Amazon Web Services, offre une alternative à moindre coût que « S3 Infrequent Access », mais la mise à disposition des données prend entre 3 et 5 heures via un mécanisme de « destaging » de la bande vers un emplacement disque dédié qui agit un peu comme un cache. Les données ne sont alors accessibles que pendant 24 heures.
À ces éventuelles limitations d’accès, il faut aussi ajouter les éventuels coûts d’accès aux données. Par exemple, pour le transfert de données sortantes, Glacier ajoute des coûts additionnels au-dessus d’un Gigaoctet transféré par mois. La firme facture aussi chaque commande de type UPLOAD ou RETRIEVAL et facture des frais additionnels si l’on tente d’extraire plus de 5 % de la capacité de stockage moyenne de données. Autant de surcoût à anticiper.
Tous les concurrents, n’ont pas les mêmes restrictions sur l’accès aux données. Google Cloud Storage Nearline, par exemple, offre des temps de réponse (ou d’accès au premier octet) d’environ deux à cinq secondes pour les données d’archivage à long terme. Et la firme, n’a pas non plus les coûts élevés d’extraction de données d’Amazon Glacier (le coût frontal du stockage au Gigaoctet est en revanche supérieur). Il y a donc clairement des choix à faire en matière de prix et de performance du service offert.
L’accessibilité et les questions de formats des données sont d’autres domaines de préoccupation lors de la mise en œuvre d’archives en nuage.
Les plates-formes d’archivage sont typiquement des magasins de stockage objet accessibles via des protocoles basés sur le Web. Les données sources en revanche sont souvent des données structurées (comme une base de données), des données semi-structurées (comme les e-mails) ou des fichiers de données non structurées. À chacun de ces formats de données seront associées des métadonnées utilisées pour en décrire le contenu. La question se pose toutefois de savoir comment réaliser la migration de données du format source vers un format d’objet générique.
Pour cela, la première solution consiste à utiliser soit des produits qui agissent comme des passerelles soit des plates-formes d’archivage qui fournissent le pont entre le local et le format de l’archive.
Les exemples incluent la passerelle AWS Storage, EMC CloudBoost, StorSimple Microsoft Azure, Nasuni Nuage NAS ou AltaVault de NetApp (voir à ce propos notre article sur les passerelles cloud).
Ces produits agissent comme des entonnoirs vers le cloud et s’interfacent avec tout type d’application supportant des protocoles NAS ou SAN.
Dans certains cas, l’un de leurs bénéfices annexes est qu’ils ajoutent des fonctions de réduction de données (compression/déduplication). Cela permet de réduire les coûts de stockage, mais crée une dépendance additionnelle (il faudra la passerelle physique ou son équivalent sous forme d’appliance virtuelle pour réhydrater les données).
Une autre solution est d’intégrer directement des protocoles de stockage en cloud dans les applications.
C’est déjà le cas d’un nombre croissant d’applications de sauvegarde et d’archivage du marché qui supportent désormais en standard les protocoles objets des grands offreurs de cloud de stockage. Et ce sera sans doute à l’avenir le cas d’un nombre croissant d’applications maison, du fait de la banalisation des protocoles de stockage objet dans les entreprises.
Le dernier point à étudier de très près est celui du coût. La plupart des systèmes d’archivage sur site ont un coût qui est directement lié à celui de l’infrastructure. Avec l’archivage en nuage, le coût est directement proportionnel au volume des données stockées et aux profils d’accès.
Au fur et à mesure que la quantité de données stockées augmente (et avec elle le nombre de requêtes d’extraction), les coûts mensuels progressent. Les organisations informatiques doivent être prêtes à refacturer ces coûts à leurs utilisateurs finaux.
Ce qui implique de créer des politiques de conservation et de récupérations de données claires et de définir des mécanismes de partitionnement des données dans des dépôts logiques qui peuvent être facturés individuellement.
Dans certains cas, le coût d’utilisation du stockage en nuage et la dépendance vis-à-vis du fournisseur de cloud pourraient devenir de réels problèmes. En effet, le déplacement de données entre archives (et fournisseurs) pourrait devenir un coût prohibitif, même lorsqu’il devient souhaitable à des fins de redondance et de réduction des risques.
En conclusion
L’archivage en cloud est aujourd’hui possible techniquement. C’est désormais aux entreprises d’évaluer s’il s’agit d’une technologie et d’un service adapté à leurs besoins. Pour cela, il convient de prendre en compte les points soulevés plus tôt : la sécurité, la performance, l’accessibilité et le coût, sans oublier la question de la solidité du fournisseur de cloud (les acteurs apparaissent et disparaissent et certaines offres s’éteignent sans réel préavis).
Un dernier point à considérer est la façon dont les données d’archives seront accessibles à l’avenir. Avoir les données déjà dans le Cloud offre la possibilité d’exécuter des analyses sur ces données avec des outils eux aussi Coud. Accéder aux données dans le nuage à partir d’applications basées sur le cloud n’engendre pas les frais d’accès additionnels facturés pour l’accès aux données depuis l’entreprise. Une façon pas totalement désintéressée d’encourager les clients à consommer des services additionnels pour tenter de faire quelque chose d’utile avec toutes les données froides accumulées dans leur archive cloud.
Chris Evans est un consultant indépendant et travaille pour la société de conseil britannique Langton Blue.