Definition

Erasure Coding

L’Erasure Coding est une méthode de protection des données qui divise les données en fragments ; développés et chiffrés. Ceux-ci contiennent des éléments de données redondants et sont stockés sur différents sites ou supports de stockage. L'objectif est de pouvoir reconstruire les données qui ont été altérées lors du processus de stockage sur disque à partir des informations stockées dans d'autres emplacements de la baie.

L’Erasure Coding est souvent utilisé à la place du RAID classique, car il réduit la durée et le traitement nécessaires à la reconstruction des données. L'inconvénient de cette méthode est qu'elle s'avère parfois plus gourmande en CPU et qu'elle augmente la latence.

L’Erasure Coding est utile pour les importants volumes de données et les applications ou systèmes qui doivent être tolérants aux pannes. Le stockage orienté objets dans le Cloud en est un des cas d'utilisation courants.

L’Erasure Coding crée une fonction mathématique pour décrire un ensemble de chiffres afin d'en vérifier la précision et de récupérer ceux qui sont perdus. Cette notion, appelée interpolation polynomiale ou suréchantillonnage, est la clé de la méthode.

En termes mathématiques, la protection qu'elle offre est représentée par l'équation suivante : n = k + m. La variable « k » est le volume de données ou de symboles d'origine. La variable « m » représente les symboles supplémentaires ou redondants ajoutés pour protéger des défaillances. La variable « n » est le nombre total de symboles créés après le traitement. Par exemple, dans une configuration de 10 sur 16 ou « EC 10/16 », six symboles supplémentaires (m) sont ajoutés aux 10 symboles de base (k). Les 16 fragments de données (n) sont dispersés sur 16 disques, nœuds ou lieux géographiques. Le fichier original peut être reconstitué à partir de 10 fragments vérifiés.

La technologie a plus de cinquante ans. Différents types de codes ont émergé au fil des ans. Dans l'un des premiers et des plus courants, le code Reed-Solomon, les données sont reconstituables à l'aide de n'importe quelle combinaison de symboles ou éléments de données « k », même si « m » symboles sont perdus ou indisponibles. Par exemple, en EC 10/16, si six disques, nœuds ou lieux sont perdus ou inaccessibles, le fichier d'origine reste récupérable.

Cette définition a été mise à jour en juin 2016

Pour approfondir sur Backup