Victoria - Fotolia

Stockage : Arcitecta transfère plus rapidement les données entre deux sites

Énième solution de mise en commun des données entre les NAS de différentes succursales, le logiciel Mediaflux de l’éditeur australien serait plus performant grâce à l’utilisation d’une base de données hors pair.

par

Yann Serra, LeMagIT

Publié le: 24 avr. 2024

65 To par heure, de n’importe quel point de la planète à n’importe quel autre, quelle que soit la qualité des connexions Internet intermédiaires. Telle est la vitesse de transfert que la solution de stockage partagé entre sites d’Arcitecta serait parvenue à atteindre dans sa dernière version.

À l’instar d’Hammerspace, mais aussi de Nasuni, de Panzura, ou encore de Ctera, la solution d’Arcitecta, baptisée Mediaflux, permet de présenter sur plusieurs sites d’une multinationale un même partage de fichiers. Les salariés travaillant à un endroit du monde voient sur leur NAS local les documents qui ont été créés par leurs collègues situés ailleurs.

« Contrairement aux autres, nous ne sommes pas un acteur du stockage. Notre expertise est dans la base de données. Nous vendons notre système de base de données à des entreprises qui sont équipées en baies NetApp, IBM Spectrum Scale, Dell Isilon, ou autres pour leur permettre de gérer leurs documents, au format fichier ou objet, entre leurs différents sites. Et nous nous occupons, via le module Livewire de Mediaflux, de rendre ces données disponibles au bon endroit, au bon moment », résume Graham Beasley, le directeur des opérations d’Arcitecta.

« Contrairement aux autres, nous ne sommes pas un acteur du stockage. Notre expertise est dans la base de données. »

Graham BeasleyDirecteur des opérations, Arcitecta

LeMagIT a pu rencontrer ce fournisseur australien, installé depuis environ un an en Europe, dans le cadre d’un événement IT Press Tour consacré aux acteurs innovants du stockage. Malgré les deux heures de présentation auxquelles s’est livré Arcitecta, LeMagIT n’est toujours pas sûr d’avoir compris comment le module Livewire de Mediaflux parviendrait à transférer autant de données en très peu de temps.

« On nous dit souvent que les vitesses de transfert que nous obtenons sont théoriquement impossibles. Notre secret est qu’il ne s’agit pas seulement de résoudre un problème de vitesse. Nous résolvons des problématiques d’interconnexion. Et y parvenir est une question de gestion des données : il faut savoir que vous avez une infrastructure où les bonnes données devront avoir été déplacées au bon moment », rétorque Jason Lohrey, le PDG et fondateur d’Arcitecta.

La pépite de la solution : une base de données XODB

« Nous reconnaissons des millions de formats de fichiers. Ce qui nous permet d’indexer dans notre base des métadonnées pour des milliers de milliards de fragments de données. Un enregistrement dans notre base représente environ 1 Ko par fichier indexé. Dès qu’il est dans notre base, laquelle est synchronisée sur tous les sites d’une entreprise, un fichier peut être trouvé depuis n’importe quel endroit », tente d’expliquer Jason Lohrey.

« Que vous ayez 1, 10 ou 100 milliards de fichiers répartis dans les succursales de votre multinationale, notre moteur de recherche est capable de vous le trouver et de vous l’afficher en quelques dizaines de millisecondes, alors qu’il faudrait des heures avec une solution concurrente », ajoute-t-il, en insistant sur le fait que tout le génie de sa solution résiderait dans la gestion du morcellement des fichiers.

De fait, les morceaux de fichiers seraient transférés d’un endroit à l’autre via des communications effectuées en parallèle, pas forcément dans l’ordre chronologique, voire par anticipation.

« Dès qu’un fichier entre sur la baie de stockage, nous le référençons et nous copions ses blocs de manière transparente vers les emplacements où notre base sait qu’ils seront utiles. »

Jason LohreyPDG et fondateur, Arcitecta

« L’objectif est de déplacer un minimum de données au moment où un utilisateur veut ouvrir un document. Dès qu’un fichier entre sur la baie de stockage, nous le référençons et nous copions ses blocs de manière transparente vers les emplacements où notre base sait qu’ils seront utiles. »

« Et si vous mettez à jour un fichier de 70 To, nous ne recommençons pas à le scanner intégralement pour en tirer des métadonnées. Notre système est assez riche pour simplement mettre à jour les métadonnées de la version précédente de ce fichier en un clin d’œil », dit encore Jason Lohrey.

Il met en avant la faculté de sa base de données à gérer pour chaque document des coordonnées temporelles et spatiales. Appelée XODB, pour « XML-encoded Object DataBase » », cette base serait capable de gérer des vecteurs entre les fichiers pour mieux comprendre ceux qui devraient être répliqués à un endroit ou l’autre par rapport aux activités précédentes.

« Si notre système fonctionne aussi efficacement, c’est parce que nous n’avons pas seulement écrit la base de données. Nous avons aussi réécrit de zéro nos protocoles de partage NFS, SMB et S3 pour qu’ils s’articulent au mieux avec les informations disponibles dans XODB. Cela nous apporte plusieurs avantages, dont le fait de pouvoir générer des hiérarchies virtuelles de fichiers qui correspondent à une recherche. », argumente le PDG.

Dans sa dernière version, Livewire prendrait en compte les bandes passantes observées sur les liens pour compresser à la volée d’une manière ou d’une autre les données, avant de les transférer vers un autre site. Par ailleurs, la méthode de renvoi des paquets perdus au fil d’une communication TCP/IP aurait été optimisée.

Une interface à composer soi-même

Il est notable que Mediaflux n’est pas livré avec une console multifonction pour chercher des fichiers. À la place, Arcitecta fournit un kit pour développer soi-même la console la plus adaptée aux métiers de l’entreprise cliente.

« La capacité d’exploiter vos données est souvent liée à la visualisation et à l’utilisation de celles-ci. Mais il n’est pas possible de créer une interface générique qui sache gérer tous les types de données. Nous avons donc développé un framework qui permet à nos utilisateurs d’assembler la meilleure interface selon leurs besoins, très rapidement. Le cas échant, nous écrivons nous-même l’interface que veut notre client. Récemment pour un musée, nous avons développé une interface en seulement quatre jours », dit Graham Beasley.

Outre la recherche de fichiers, l’interface de gestion doit surtout permettre de définir des règles concernant les déplacements de données. LeMagIT croit comprendre que ce sont ces règles manuelles qui aident Mediaflux à anticiper automatiquement les déplacements de fichiers pour donner l’impression qu’ils ont été importés en un éclair depuis l’autre bout du monde quand un utilisateur cherche à y accéder.

Parmi les prochaines évolutions de Mediaflux, Arcitecta cite une densité toujours plus importante des métadonnées et la faculté d’ingérer directement les contenus dans une IA générative via la méthode du RAG. Celle-ci demande un format vectoriel des données, qui serait trivial à apporter à XODB, vu sa structure actuelle.

Stockage : Arcitecta transfère plus rapidement les données entre deux sites

Énième solution de mise en commun des données entre les NAS de différentes succursales, le logiciel Mediaflux de l’éditeur australien serait plus performant grâce à l’utilisation d’une base de données hors pair.

La pépite de la solution : une base de données XODB

Une interface à composer soi-même

Pour approfondir sur Administration du stockage

Partage de fichiers : Arcitecta intègre le format vectoriel pour alimenter les IA

Sauvegardes : tout ce qu’il faut savoir sur la déduplication

Stockage : détruisez les données avec shred et dd sous Linux

Administration : Comment mieux planifier vos sauvegardes ?