BillionPhotos.com - stock.adobe.
Igneous va identifier 400 000 fichiers froids par seconde
La prochaine version du logiciel DataDiscover, entièrement réécrite, doit permettre aux entreprises de faire le ménage parmi leurs milliers de milliards de fichiers qui traînent.
Igneous, la plus versatile des startups du stockage, est de retour. Cette fois-ci, elle propose une solution de monitoring des accès aux documents sur une flotte de NAS qui fonctionne même quand on dénombre des milliers de milliards de fichiers et même quand l’ensemble pèse plus de 100 Po. A l’instar de Varonis, ce type de solution sert à dresser l’inventaire de tous les fichiers qui existent sur une très grande flotte de NAS, à des fins de vérification des droits d’accès et, surtout, d’optimisation des coûts. On s’en sert typiquement pour savoir quels fichiers peuvent être déplacés sur un stockage moins cher.
« En stockage, il y a des plafonds à partir desquels les acteurs de la gouvernance des données ou de la sauvegarde sont de moins en moins efficaces : 300 To, 1 Po, puis 10 Po. Au-delà de 10 Po, plus aucun de nos concurrents n’arrive à fonctionner correctement », lance Christian Smith, l’un des dirigeants d’Igneous, lors d’une présentation en avant-première qui a eu lieu dans le cadre de l’IT Press Tour 33. Cet événement consiste à emmener certains journalistes à la rencontre des innovations liées au stockage dans la Silicon Valley.
Selon lui, Cohesity et Rubrik en sauvegarde, ainsi que Varonis dans le domaine du référencement des fichiers, ne pourraient gérer correctement plus de 40 milliards de fichiers, soit de 1 à 10 Po de données. Commvault et Veritas dans le backup, ainsi que Komprise et Starfish dans le monitoring du stockage, seraient quant à eux à la peine pour grimper jusqu’à 1000 milliards de fichiers, soit 100 Po maximum.
La solution présentée ici est en fait une version étendue d’un précédent logiciel d’Igneous, DataDiscover. Elle devrait d’ailleurs en conserver le nom. Comme lui, elle fonctionne toujours de concert avec DataFlow, un autre logiciel d’Igneous qui, lui, déplace automatiquement les fichiers les plus froids vers du stockage moins cher.
Indexer plus vite les fichiers et les archiver pour moins cher
Le problème qu’adresse Igneous est la lenteur que prend le scan des fichiers source : il faut en effet compter d’ordinaire plusieurs jours pour indexer des milliards de fichiers. Problème aggravant, l’opération est à répéter régulièrement, idéalement tous les jours, pour conserver une visibilité la plus exacte possible des accès aux fichiers de production et savoir lesquels méritent d’être archivés.
DataDiscover est capable, lui, de référencer 30 milliards de fichiers par jour. Le secret ? Le nouveau moteur AdaptiveSCAN du logiciel fonctionne sur un cluster où chaque nœud interroge dans son coin une partie des volumes partagés en SMB ou NFS afin de maximiser les requêtes parallèles. Dans le meilleur des cas, Igneous a mesuré que sa solution pouvait scanner 400 000 fichiers par seconde.
A la fin du scan, le moteur InfiniteINDEX répertorie tous les éléments trouvés – noms de fichiers, utilisateurs, etc. – dans une base de métadonnées qui pèse généralement 20 à 40 Go pour 10 Po de fichiers source. Igneous précise avoir référencé les détails de 40 milliards de fichiers dans une base de seulement 200 Go.
Le module DataFlow dispose lui aussi d’un nouveau moteur, IntelliMOVE. Celui-ci compresse en temps réel les fichiers froids avant de les archiver en cloud, typiquement dans Glacier, le service d’archivage longue durée d’AWS, mais les cloud publics d’Azure et Google sont également supportés, ainsi que n’importe quel stockage S3 local. Concernant les offres de cloud public, IntelliMOVE présente l’intérêt de combiner les fragments de fichiers modifiés depuis le dernier archivage, de sorte que le prix du transfert – calculé par AWS à la quantité de fragments dans chaque lot ingéré par Glacier – soit minimal.
« Avec un tarif de 0,05 $ pour 1000 fragments transférés par glacier, il faudrait compter normalement 50 000 $ pour archiver 1 Po de fichiers de 1 Mo. Avec notre solution, ce coût descend à 537 $ », assure Christian Smith.
L’ensemble des opérations se pilote depuis un portail web. Celui-ci sert à avoir une vision d’ensemble des fichiers, à définir les règles d’archivage et à effectuer des restaurations.
Une startup qui passe du serveur, à la sauvegarde, puis à la gouvernance
On se souvient qu’en 2016-2017, Igneous inventait une architecture matérielle de nano-NAS originale. Il s’agissait en l’occurrence de réunir dans un châssis 4U une soixantaine de disques durs et de brancher sur le port SATA de chacun une mini-carte Ethernet embarquant Linux et CPU ARM pour en faire un cluster de stockage objet compatible S3.
Fin 2017, le matériel disparaissait du catalogue, tandis que le logiciel restait pour transformer n’importe quel lot de serveurs interconnectés en une appliance « DataProtect » de sauvegarde pour NAS. Fin 2018, l’entreprise se présentait finalement comme un acteur de la gouvernance des données, capable d’indexer les fichiers sauvegardés et de les déplacer automatiquement vers du stockage en cloud, grâce aux nouveaux outils DataDiscover et DataFlow.
Notons que, à l’image de l’éditeur, notre interlocuteur Christian Smith multiplie lui aussi les casquettes : il est le directeur des produits, des solutions, des contenus, du marketing, du succès utilisateur...
Aujourd’hui, Igneous dénombre une cinquantaine de clients dans le monde, essentiellement de grandes entreprises qui disposent de centaines, voire de milliers de NAS, répartis sur des dizaines de succursales dans le monde.