Start-up Tour 2012 : Scality dévoile la version 4.0 de sa technologie de stockage en cluster
À l’occasion du 8e IT Press Tour, qui met en contact sur une semaine une dizaine de journalistes européens avec de jeunes sociétés américaines basées dans la région de San Francisco et dans la Silicon Valley, le Franco-Américain Scality a dévoilé la 4e version de son architecture de stockage en cluster, Scality Ring Organic Storage 4.0.
Basé à San Francisco et à Paris, Scality a développé une solution originale de stockage en « anneau » conçue pour le stockage et l’archivage d’objets à très grande échelle (voir notre article précédent à ce sujet). Selon la firme sa technologie distribuée permet de stocker des milliards de fichiers et plusieurs centaines de Petatoctets de données. Le tout avec des performances qui s’accroissent quasiment linéairement avec le nombre de nœuds.
Une technologie à l'origine conçue pour le stockage objet
La technologie de Scality est avant tout une technologie de stockage objet - et à ce titre concurrente des solutions de CleverSafe, Caringo, EMC... - qui permet l’ingestion et la restitution de fichiers au travers d’une API de type Restful. À l’ingestion les données du fichiers sont découpées en blocs et répartis entre les multiples nœuds de stockage à base de serveurs x86 qui composent les anneaux de stockage de Scality. À chaque bloc sont associés un hash et des informations de méta données qui permettent de localiser les différents blocs qui composent un fichier sur les nœuds mais aussi de vérifier leur intégrité. Chaque nœud d’un anneau est à la fois un nœud de stockage et un nœud de gestion des entrées/sorties. Lorsqu’une application requiert un fichier le serveur qui reçoit la requête interroge l’anneau de métadonnées afin de récupérer les données du fichier. L’architecture en anneau permet de minimiser le nombre de « hop » pour trouver les données (en théorie il n’y a jamais plus de 2 hops dans un anneau à 100 nœuds et pas plus de 3 dans un anneau à 1000 nœuds).
Premiers pas vers le NAS en cluster
Cette architecture de stockage est bien adaptée au stockage à grande échelle d’objets, mais elle présentait jusqu’alors l’inconvénient de ne pas être compatible avec la plupart des applications qui pour l’essentiel s’appuie sur des protocoles de partage de fichiers ou sur des filesystem en réseau pour la gestion des fichiers.
Scality Organic Ring 4.0 est un premier pas dans la résolution de ce problème. Avec cette mouture, la société fournit un plug-in file system pour les serveurs Linux s'appuyant sur la technologie Fuse et qui permet un accès aux données stockées dans le(s) anneau(x) – un même système peut être organisé en plusieurs anneaux chacun avec sa propre qualité de service - au moyen d’un filesystem POSIX.
L'architecture typique d'un système de stockage Scality Organic Ring 4.0
Pour doper les performances, Scality Organic Ring 4.0 permet aussi la gestion des métadonnées sur un anneau séparé des anneaux de stockage de données. Cet anneau de métadonnées s’appuie sur des disques Flash, ce qui permet à Scality de réduire sensiblement la latence d’accès aux données (il est à noter que les performances en IOPS sont en principe élevées puisque Scality Organic Ring distribue des données entre les disques présents dans les différents nœuds et donc s’appuie sur un grand nombre de têtes de lecture / écriture).
Des performances validées par ESG
Pour valider ses dires, Scality a confié au cabinet d’études ESG la réalisation d’un test de performance de son architecture, un test mené avec des nœuds équipés de SSD. Ce dernier conclut dans un rapport préliminaire - la version finale sera publiée lors de Storage Networking World la semaine prochaine - que Scality délivre des performances très élevées en terme d’IOPS pour l’accès à de petits fichiers et fournit une bande passante très élevée pour de gros fichiers. Surtout, ESG souligne que la performance en terme de latence de l’architecture de Ring de Scality est étonnamment bonne. Le temps d’accès à un fichier n’a ainsi jamais dépassé 7 ms – frisant même la barre des 3 ms pour un accès en lecture sur un cluster de 5 nœuds à base de SSD. Pour ESG, « le temps de réponse excellent d’un anneau Scality est comparable à celui d’une baie de stockage en mode bloc et très supérieur à celui des autres systèmes de stockage objet testé par ESG ».
ESG a aussi confirmé lors de ses tests que les performances de l’architecture de stockage de Scality progressaient linéairement avec le nombre de nœuds. Le cabinet d’analyse permet aussi de se faire une petite idée sur les capacités d’un anneau Scality. Ainsi une architecture composée de cinq serveurs Xeon 5670 chacun équipé de six SSD Intel 710 permet de délivrer simultanément 211 000 fichiers MP3 ou 2300 flux vidéo HD (soit un maximum de 2,7 Go/s de données).
De façon plus réaliste Jérôme Lecat, le patron de Scality estime qu’un cluster Scality basé sur des disques SAS à 7 200 tr/mn peut délivrer une latence de l’ordre de 40 ms et sans doute aux environs de 30 ms avec des disques SAS rapides, ce qui est largement suffisant pour la plupart des besoins. En fait Lecat semble indiquer que les SSD ne seront en général utilisés que pour l’anneau de métadonnées. Il précise aussi que ces résultats sont obtenus avec un réseau Ethernet, mais que la technologie pourrait si nécessaire délivrer des performances encore bien meilleures avec une interconnexion comme Infiniband. Si la demande pour une latence plus faible se matérialisait, explique le CEO, nous saurions comment y répondre. Ce « si » est important, Lecat expliquant que tous ses clients sont aujourd’hui très satisfaits des niveaux de performances de Scality Ring. La société compte ainsi parmi ces clients plusieurs sociétés comme Time Warner, France Télévision, Telenet qui stockent plusieurs centaines de Teraoctets voire plus d’un Petaoctet sur l’architecture sans problème de performances. Chez Time Warner Cable, Scality Ring vient ainsi de remplacer une baie EMC Symmetrix pour le stockage des messages e-mails des clients de l’opérateur, une application très exigeante en matière d’IOPS mais aussi très sensibles aux coûts.
Protection des données par "Erasure Codes"
Une dernière nouveauté apportée par la version 4.0 de Scality Organic Ring est le support des erasure codes pour la protection de données. Le système développé par la firme, baptisé ARC stocke les données originales ainsi que le checksum des données sur l’anneau avec un réglage par défaut de 4 blocs de checksum pour 16 blocs ingérés, ce qui permet de protéger chaque objet contre la perte de 4 disques dans l’architecture. Répondant à une question du MagIT, Jérome Lecat a indiqué que la technologie ARC n’avait aucun impact sur les performances en lecture (sauf en cas de défaillance d’un disque, puisqu’il faut alors reconstruire le fichier à partir des informations de checksum).
Un cloud de stockage interne à un prix inférieur à celui d'Amazon
Selon Jérôme Lecat, Scality Organic Ring permet aux entreprises de constituer leur propre nuage de stockage, « façon » Amazon, à un coût 30 à 60% inférieur - selon la capacité de l'anneau - à celui de l’opérateur de cloud (en factorisant les coûts d’hébergement des serveurs, les coûts énergétiques, la maintenance…). Un point qui fait dire à Lecat que le cloud public est loin d’avoir gagné la bataille en matière de stockage, les marges des opérateurs de cloud public tels qu’Amazon restant élevées par rapport à une solution telle que Scality déployée en cloud privé.
Notons enfin que Scality a noué des partenariat avec StorSimple et TwinStrata, deux des fournisseurs de passerelles cloud les plus en vue du marché, pour permettre l’accès natif à Scality Ring via des protocoles de stockage en mode bloc standards comme iSCSI. Un accès natif NFS serait dans les cartons de l’éditeur - de même que des fonctions de déduplication -, mais il faudra sans doute attendre la version 5.0 pour les voir apparaître. Scality pourrait alors aussi devenir une menace pour les acteurs du stockage NAS en cluster.