Stockage des données non structurées : en local, dans le cloud ou hybride ?
Nous nous intéressons ici au stockage des données non structurées sur site, dans le cloud et à cheval entre plusieurs sites. Mélanger les approches recèle des coûts cachés.
Désormais, les entreprises ne se contentent plus de conserver des données structurées dans des bases de données métiers. Elles recueillent, stockent et utilisent documents, e-mails, images, vidéos, fichiers audios et même publications des médias sociaux. Toutes ces ressources contiennent des informations susceptibles de faciliter les prises de décision. Elles sont dites non structurées.
Selon les cabinets d’étude IDC et Gartner, environ 80 % des données générées en entreprise sont non structurées. Leur analyse et leur stockage sont indubitablement utiles. Il est même parfois réglementaire de les conserver sur le long terme.
Reste que les technologies de stockage classiques n'ont pas été conçues pour prendre en charge le volume et la diversité des formats de ces données. Cesar Cid de Rivera, responsable de l’ingénierie système chez Commvault, souligne que les différences de taille des fichiers – par exemple entre un fichier vidéo et un document texte – posent à elles seules des problèmes de stockage. La complexité est telle que les entreprises se retrouvent à gérer, dit-il, « des pools nébuleux de données », qui ne cessent d’être créés automatiquement, de transiter entre les systèmes.
Ajoutons à cela que les données créées dans des applications SaaS, collectées par des objets connectés, ou générées par un moteur d’intelligence artificielle (IA), doivent, elles aussi, être identifiées, indexées et stockées.
Les entreprises se satisfont de moins en moins d'une approche monolithique du stockage – tout local ou tout cloud – qui ne répond plus à leurs besoins en matière de coût, de flexibilité et de performance. D'où l’intérêt croissant pour les solutions hybrides, voire pour des technologies, telles que Snowflake, conçues pour être indépendantes du stockage.
« Le volume, l’inertie des données – à savoir les emplacements où celles-ci sont générées, utilisées, calculées ou consommées – mais aussi la sécurité, la bande passante, la réglementation, la latence, les coûts, le rythme des échanges et les transferts sont tous autant de critères dont il faut tenir compte », affirme Olivier Fraimbault, l’un des responsables du comité de direction de la SNIA, l’organisme responsable de définir les standards du stockage.
« La question n'est pas tant de parvenir à stocker une masse de données non structurées, ni à gérer le stockage en soi, mais plutôt de réussir à administrer les données. »
Quoi qu'il en soit, les entreprises doivent évaluer les métriques de performance du stockage conventionnel, en particulier les entrées-sorties et la latence, ainsi que le prix, la résilience et la sécurité pour chaque technologie envisageable.
Stocker en local
Classiquement, les données non structurées sont stockées en local (sur site) sur un système de fichiers. Il s’agit soit du tiroir de disques directement attaché à un serveur (Direct-Attached Storage, ou DAS), soit d’un serveur sur le réseau qui est dédié au stockage (Network-Attached Storage, NAS). Cette offre historique a évolué de différentes manières.
Pour parer à la croissance incessante des besoins de stockage, les entreprises ont plus précisément adopté des systèmes NAS élastiques (scale-out NAS). Dans ce domaine, Dell EMC, NetApp, Hitachi, HPE ou encore IBM proposent une grande variété de modèles, de capacités, de performances et de prix.
En général, les applications nécessitant une faible latence – la diffusion vidéo ou, plus récemment, les systèmes d'entraînement de l'IA – utilisent des NAS basés sur des SSD plutôt que des disques durs.
Et puis, il existe à présent une offre de stockage objet que l’on peut déployer sur site et qui s’adapte mieux aux jeux de données particulièrement volumineux. Le stockage objet facilite aussi la bascule entre un site et le cloud, puisqu’il s’agit du type de stockage par défaut en cloud public.
Cette offre de stockage objet en local est notamment fournie par les géants du cloud eux-mêmes. Ils argumentent qu’en utilisant sur site leur appliance de stockage objet, ils pourront la lier à leurs services en ligne de protection des données et d'espace de noms global, tout en conservant les avantages d'un stockage sur site : la sécurité et la performance. Mais, avertit la SNIA, ces systèmes n'offrent aucune interopérabilité entre fournisseurs.
Côté avantages, le stockage local des données non structurées offre la performance, la sécurité, la conformité et le contrôle ; les entreprises connaissent leur architecture de stockage et savent la gérer avec précision.
Côté désavantages, citons les coûts, dont l'investissement initial, l'absence d'évolutivité – les NAS évolutifs eux-mêmes se heurtent à des goulets d'étranglement des performances pour les très grands volumes – et l'absence de redondance, voire de résilience.
Le choix du cloud
Les entreprises étudient l'option du cloud pour réduire leur investissement initial et simplifier l'évolution des capacités. En cloud, le stockage par excellence est l’objet. Il permet de gérer efficacement de grands volumes de données non structurées. De plus, il utilise un espace de noms global et sépare les métadonnées des données, ce qui améliore la résistance aux pannes.
En outre, les performances se rapprochent de celles du stockage local. En fait, le stockage objet en cloud est désormais suffisamment performant pour de nombreuses applications professionnelles où les entrées/sorties et, surtout, la latence sont moins critiques.
Le stockage en cloud réduit les coûts matériels (initiaux) et n'impose potentiellement aucune limitation dans le temps. Aucun système redondant n’est nécessaire à la protection des données : elle est assurée par les services du fournisseur cloud ou, sous réserve de l'architecture adaptée, en répartissant les données sur les clouds de plusieurs fournisseurs.
Les données étant déjà stockées dans le cloud, leur liaison avec de nouveaux systèmes (par exemple pour la reprise après désastre) ou la connexion à de nouvelles applications clientes par le biais d'API (Application Programming Interfaces) s’en trouvent simplifiées. Technologie de stockage objet devenue standard de fait, Amazon S3 facilite la connexion aux volumes de données cloud des applications métier.
Enfin, les pertes de performance liées à la mobilité des utilisateurs, dans l'entreprise ou à distance, sont pratiquement inexistantes.
Le stockage cloud ne va toutefois pas sans quelques points négatifs : une performance moindre comparée à celle d’un stockage sur site – en particulier pour les applications multipliant les opérations d'E/S ou ne tolérant pas la latence –, une gestion parfois complexe (le stockage cloud est ouvert à tout le monde) et d'éventuels coûts cachés.
Bien que vanté comme solution économique, le cloud recèle en effet des coûts cachés, par exemple les frais de transfert des données, qui peuvent très vite saper les économies. Bien qu'il soit assez simple de déplacer des containers entre clouds, la situation est plus complexe lorsque leurs données y sont rattachées, avertit encore Olivier Fraimbault.
Des options hybrides
Les fournisseurs sont ainsi de plus en plus nombreux à proposer des technologies hybrides combinant les avantages du stockage local, la technologie objet et l'évolutivité des ressources cloud.
Cette tentative de conciliation fonctionne bien pour les données non structurées en raison de sa polyvalence, des tailles de fichier variées et de son accès ouvert à plusieurs applications.
Capable de gérer d'assez petits fichiers texte (des e-mails, par exemple) et des fichiers d’image volumineux, et accessible avec la même efficacité par l'informatique décisionnelle, les systèmes d'IA et les utilisateurs, un tel système présente un intérêt évident pour les DSI et les administrateurs de données.
Ajoutons à cela que les entreprises veulent privilégier des technologies de stockage pérennes qui s'adaptent aux évolutions, telles que les containers. Pour Olivier Fraimbault, l'évolution du cloud hybride vers les containers, plutôt que les machines virtuelles, constitue un atout essentiel pour le stockage de données non structurées dans des systèmes de stockage objet.
Le cloud hybride permet d'optimiser les systèmes de stockage en fonction de leurs workloads, avec le maintien du NAS évolutif (scale-out NAS), du stockage en attachement direct (Direct-Attached Storage, DAS) et du stockage SAN, suivant les exigences applicatives et de performance.
Les applications moins performantes peuvent accéder aux données dans le cloud, et les données peuvent être transférées dans le cloud pour un stockage et un archivage à long terme. Les données peuvent ainsi basculer dans et hors du cloud, et changer de fournisseur sans que ni l'application ni l'utilisateur n'en soit averti.
C'est déjà le cas de technologies de stockage de données : Snowflake, par exemple, mixe stockage local et cloud et a procédé à une mise à niveau l'an dernier pour prendre en charge les données non structurées.
De son côté, Microsoft étoffe son offre de stockage hybride avec Azure Data Factory, son service d'intégration de données.
Une solution idéale ?
Concrètement, le stockage à emplacement neutre n'est pas encore mûr, en particulier parce que les modèles économiques du cloud reposent sur les frais de transfert des données. Et cela, avertit l'Enterprise Storage Forum, peut faire monter les prix.
C'est ce que confirme une étude d'Aptum qui relève que près de la moitié des entreprises souhaitent davantage utiliser le stockage en cloud classique. Pour l'instant, donc, aucune technologie universelle ne se profile pour les données non structurées.