Un business case pour la déduplication de données
La déduplication des données est une technologie relativement nouvelle qui a fait son chemin dans de nombreux environnements de stockage de données. Mais ce qui justifie un investissement dans cette technologie ne sera pas nécessairement vrai dans tous les cas. Il est en fait nécessaire de bien comprendre en quoi la déduplication peut être utile dans votre environnement, en quoi elle répond à vos besoins et en quoi elle peut aider à réduire les coûts.
Quand on parle de bâtir un «business case» pour l’usage de la déduplication, le terme dépense revient plus fréquemment que celui d’investissement. Il est vrai que l’on parle de sauvegarde et qu’il est rare que les technologies de sauvegarde de données génèrent des revenus, à moins qu'elles ne soit mises en oeuvre par un prestataire de services de sauvegarde. Pour la plupart des sociétés, les sauvegardes sont un moyen d'éviter des pertes et il s’agit donc surtout d’économiser de l'argent. Il est rare d’entendre parler d’un «investissement dans une technologie de sauvegarde pour accroître les revenus». L’argument de la réduction des coûts est donc un bon point de départ pour justifier l’usage de la déduplication des données.
Que tentez-vous de résoudre avec la déduplication des données ?
Que tentez-vous de résoudre avec la déduplication des données? C’est sans doute la première question que vous devez vous poser. Bien qu'il n’y ait en principe rien de mal à adopter de nouvelles technologies et à améliorer certains processus informatiques, obtenir des fonds pour un projet est toujours plus facile quand il vise à réduire les coûts ou à corriger une situation qui ne répond pas aux besoins. Voici une liste des grands avantages et inconvénients à connaitre sur la déduplication pour vous aider à monter votre dossier justifiant l’usage de cette technologie.
Les avantages de la déduplication des données
Bureaux distants et agences : La déduplication peut aider à résoudre certains problèmes de sauvegarde d’environnements distants lorsqu’il n’existe pas de compétence locale pour gérer les backup. En utilisant une appliance de déduplication comme cible de backup, on élimine le besoin de s’assurer qu’une bande est bien disponible et on élimine aussi les processus d’externalisation et de remplacement de bande. De même, aucune intervention humaine n’est nécessaire pour monter une bande, les données à restaurer étant stockées sur l’appliance. Ajoutez à cela le fait qu’il est possible de répliquer les données sauvegardées à travers le WAN et vous obtenez une solution de sauvegarde nécessitant très peu d’intervention humaine. Au passage, on notera que le fait de répliquer des données préalablement dédupliquées à travers le WAN réduit le besoin de bande passante réseau, ce qui est plus économique que la réplication de disque. La mise en oeuvre d’une telle solution ne se traduit pas nécessairement par des économies immédiates, mais a le bénéfice additionnel d’éliminer largement les erreurs de sauvegarde.
La déduplication des données et les doublons de fichiers : éliminer les données en double est l’une des fonctions les plus attrayantes de la déduplication des données.
L’usage de la technologie dans des environnements comportant de grandes quantités de fichiers doublonnés ou similaires peut se traduire par des gains significatifs en matière d’espace. La déduplication produit en effet ses meilleurs résultats lorsqu’elle est confrontée à de grandes quantités de segments de données identiques. Dans les cas où les sauvegardes complètes sont fréquentes et les taux de changement de données faibles, la déduplication peut produire des gains impressionnants. Un ratio de réduction de données de 5:1 à 10:1 n’est pas rare et on peut même atteindre des ratios de 20:1 dans certains scénarios.
Réduction des manipulations de médias : Pour les environnements qui utilisent encore la bande et qui nécessitent des changements de cartouches, la déduplication est une excellente occasion de réduire les opérations de manipulation des médias, ce qui permet de réaffecter des opérateurs à d’autres tâches à plus forte valeur ajoutée. Une fois de plus, la possibilité de répliquer les données à distance après déduplication peut aussi éliminer la nécessité d’externaliser les cartouches sans consommer trop de bande passante et tout en respectant les fenêtres de sauvegarde. Les organisations ayant au moins deux sites déjà connectés via un lien réseau peuvent répliquer des données dédupliquées sans investissement important tout en réduisant leur budget de stockage hors site et en réallouant les ressources ainsi libérées à des tâches plus productives. La récupération d'espace : Etant donné le coût de l’espace dans dans les centres de données, il peut faire sens de récupérer une partie de l'espace occupé par une bibliothèque de bandes volumineuse en la remplaçant par un système de déduplication à base de disque bien moins encombrant.
Mise à niveau de librairie : Toute organisation qui envisage une mise à jour de ses librairies de bandes doit évaluer sérieusement la possibilité d’utiliser la déduplication sur disque. Lorsque cela ne faisait a priori pas de sens d’un point de vue financier de remplacer une librairie de bande, le besoin d’une mise à jour ou d’un renouvellement doit aussi être l’occasion d’étudier le remplacement de la bande par un sous-système de déduplication.
Les inconvénients de la déduplication des données
Type de données : toutes les données ne sont pas forcément de bonne candidates pour la déduplication. En général, les images, les fichiers vidéo et audio ainsi que certains types de données compressées gagneront peu à être passés au travers d’un système de déduplication.
Chiffrement : Pour les organisations qui mettent en oeuvre le chiffrement des données à la source, la déduplication au niveau des sauvegardes n'est pas le meilleur choix car l’emploi du chiffrement rend «méconnaissables» les données sans les clés. Ceci annule la plupart des avantages de la déduplication à moins que le chiffrement ne soit appliqué post-déduplication. Données transitoires : les données avec des paramètres de rétention très faibles n’ont pas le même potentiel de déduplication que d’autres. La déduplication à besoin de construire une base de segments de données identiques pour produire des résultats vraiment concluants. Les données transitoires ou à temps de rétention faible ne résident généralement pas assez longtemps sur la baie de stockage pour permettre une application efficace de la déduplication
Les idées fausses sur la déduplication
Les librairies de bandes virtuelles (VTL) intégrant la déduplication ne doivent pas être considérées comme une source inépuisable de lecteurs de bandes. Alors que les fabricants peuvent vous permettre de configurer 128 lecteurs de bandes logiques ou plus, cela ne se traduit pas automatiquement par un gain de performance massif. Par exemple, le streaming de données à plus de 100 lecteurs de bandes virtuels sur un lien gigabit sera toujours limité par la performance du lien. Sans mise à jour réseau, vous pouvez vous retrouver avec le même goulet d'étranglement après avoir pourtant investit plusieurs milliers d’euros dans la déduplication. De nombreux fournisseurs mettent en avant le fait que les systèmes à base de disques sont plus rapide que les bandes, mais il y a encore des limites. La déduplication des données sur disque n'a rien à voir avec le mirroring ou les snapshots, les données doivent être rassemblées lors d’une restauration et réécrites sur un système de fichiers dans un format lisible par les applications. Selon la technologie de déduplication utilisée, les performances en restauration peuvent être décevantes. La déduplication doit donc être abordée comme toute autre technologie. Une solide évaluation de ses bénéfices est nécessaire pour réellement mesurer ses bénéfices en matière de coûts d'exploitation.