Scality joue la carte du stockage distribué
C’est une start-up installée à San Francisco, fondée en juin 2009, et qui vient de lever 7 M$ auprès d’IdInvest, de Crédit Agricole Private Equity et de Galileo. Elle était présente sur le Parallels Cloud Summit, qui se déroulait la semaine dernière à Orlando, en Floride, pour annoncer notamment la conclusion d’un accord OEM avec l’éditeur russe spécialiste de la virtualisation. A l’heure où des termes tels que déduplication profitent d’un écho tout particulier, son offre singulière mise à la fois sur un coût réduit et sur des performances élevées. Et tant pis pour une utilisation des espaces disques pas totalement optimale : pour les applications visées, la solution a de quoi séduire. Et a déjà séduit.
Nous avons profité du Parallels Cloud Summit, qui se déroulait la semaine dernière à Orlando pour rencontrer Jérôme Lecat, PDG de Scality, une entreprise basée à San Francisco et qui a développé une solution de stockage originale. Baptisée Ring, cette solution vise notamment à proposer une alternative aux SAN haut de gamme pour certaines applications. «Nous concevons des systèmes pour des gens qui veulent du stockage selon une logique comparable à celle du Cloud, à savoir massivement distribuée. Initialement, notre technologie a été pensée pour répondre à une problématique spécifique à la messagerie », indique Jérôme Lecat. De fait, il s’agissait pour lui d’apporter une réponse à des clients cherchant à stocker «de manière efficace des milliards de courriers électroniques, chacun étant un fichier ». Et, selon lui, la stratégie classique du multi-tenant n’est pas optimale dans ce contexte : «les utilisateurs considèrent qu’il est normal d’accéder en une seconde à leurs courriers électroniques même les plus anciens. Et si l’on peut faire ça avec des NAS, on perd une partie de la protection des données et de la garantie de disponibilité - un système RAID, quand il flanche, il prend du temps à se recalculer, ce qui induit des problèmes de performances ». De l’autre côté, pour assurer performances et sécurité, «certains déploient des baies haut de gamme d’EMC ou de 3Par, ou encore des systèmes NetApp, avec des disques à très haute vitesse ». Mais là, «si les gros utilisateurs peuvent négocier, cela reste trop cher pour beaucoup d’utilisateurs, surtout avec un prix de référence tel que celui défini par Google ». A savoir, la gratuité.
Une architecture physique simple
De son côté, Scality propose de s’appuyer exclusivement sur des serveurs tout ce qu’il y a de standard «que l’on remplit de disques durs et auxquels on ajoute un Linux et notre couche logicielle afin de présenter ces machines comme un ensemble logique de stockage cohérent ». Des serveurs «typiquement équipés de 10 à 20 disques durs» - chaque disque étant géré par un démon logiciel différent - et connectés entre eux par un simple réseau Ethernet. Et pour le reste, rien, pas de passerelle, pas de base de données d’indexation : tout est géré directement par les noeuds d’une architecture logique circulaire. La protection des données est quant à elle assurée par réplication entre des noeuds qui se surveillent selon un mode qui rappelle les échanges en pair-à-pair : «c’est très inefficace en matière d’utilisation de l’espace disque, mais c’est très efficace en matière de réduction des tâches d’administration et de performances ». D’ailleurs, pour Jérôme Lecat, «c’est une erreur que de chercher à optimiser l’utilisation de l’espace disque alors que les disques durs ne représentent que 10 à 20 % du coût d’un système de stockage; ce n’est pas ça qui coûte cher ».
Pour lui, le système de Scality montre toute sa pertinence sur des gros volumes : «au-delà de 100 To ». Et concrètement, sur le terrain des performances, «avec l’écriture simultanée de plusieurs copies, il y a bien une charge sur le réseau, mais on gagne en lecture ». Et d’expliquer, plus loin, que «en lecture, on interroge en parallèle tous les serveurs; la lecture est effective lorsque l’un deux a renvoyé une copie. Et pour les gros fichiers, on est capable de les découper".
Un algorithme optimisé
Le secret de l’anneau de Scality tient aux algorithmes sousjacents : «nous utilisons l’algorithme de Korb, du MIT [un algorithme de génétique, NDLR]. Et nous l’avons optimisé en utilisant par exemple les propriétés géométriques du cercle - en réalisant des projections - pour éviter d’utiliser un système d’adressage centralisé. Nous avons obtenu trois brevets pour cela.» Du coup, l’ensemble se veut très efficace : «l’algorithme qui permet de chercher où lire ou écrire converge en 5 étapes pour un groupe mille noeuds. Et si je multiplie ce nombre par 10, j’ajoute une itération. En outre, comme l’anneau travaille sur un cache de la topologie, souvent, je tombe sur la bonne adresse du premier coup.» Ce qui évite également les phénomènes d’écroulement. Mais Jérôme Lecat ne s’interdit pas pour autant un minimum d’optimisation, notamment lorsqu’il s’agit de passer au tier 2 du système : là, il peut utiliser de la déduplication. Et de préciser qu’un anneau de même tier peut même être construit sur un WAN - «si la latence est inférieure à 40ms ».
Un système aux usages multiples
Si la technologie de Scality a d’abord été conçue pour les systèmes de messagerie, ses applications potentielles sont plus vastes : «c’est un système de stockage objet que l’application peut adresser avec l’API REST.» D’où des possibilités d’intégration assez vastes et, même «une compatibilité avec S3 d’Amazon» ou encore «une émulation Fuse pour les applications orientées système de fichiers ». Pour autant, Jérôme Lecat insiste : «notre solution est orientée objet ou fichier; elle n’est pas optimisée pour les bases de données, du moins pour les bases de données relationnelles. En revanche, avec NoSQL, on peut être pertinent.»
Au final, si Scality pourrait viser les grands comptes, il s’intéresse d’abord aux hébergeurs et fournisseurs de service. L’entreprise est d’ailleurs parvenue à placer son RING chez Telenet pour sa plateforme de messagerie électronique - «avec deux millions d’utilisateurs et 200 To», ou encore Intergenia, Connectria et Tiscali. Il a d’ailleurs récemment conclu un accord de partenariat OEM avec Parallels pour sa solution Cloud Automation Platform.