Ces technologies de stockage sont adaptées à l'IA et au ML
Il existe dans le domaine du stockage des données pour l'IA, le ML et le DL différentes tendances que les entreprises se doivent de connaître. Cet article fournit quelques informations à ce sujet.
Les systèmes de stockage rapides, performants et évolutifs jouent un rôle particulièrement important dans les projets de Machine Learning, d'Intelligence Artificielle et de Deep Learning. Le Machine Learning (ML) et l'Intelligence Artificielle (IA) influencent le stockage des données de plusieurs façons. La quantité de données à stocker augmente constamment tandis que les temps d'accès se réduisent toujours plus.
Économies de coûts dans les solutions de stockage et stockage à définition logicielle
Les systèmes de stockage pour l'IA, le ML et le DL doivent être à la fois évolutifs et relativement abordables. Les coûts de stockage ne doivent pas excéder les bénéfices de la solution qui archive les données sur les systèmes.
Afin d'économiser sur les coûts mais aussi d'offrir la flexibilité, l'évolutivité et les performances requises par l'IA, le ML et le DL, opter pour le stockage à définition logicielle peut être très judicieux dans de nombreux secteurs. Le Software-defined Storage, en particulier, est capable de stocker les données de façon efficace, flexible et très évolutive. Si de nombreuses entreprises reculent encore devant le stockage à définition logicielle, l'IA, le ML et le DL augmentent considérablement l'acceptation et la diffusion de ce type de stockage.
Sécurité et fiabilité accrues
En tout état de cause, la perte de données et la sécurité jouent un rôle majeur dans les systèmes de stockage. Avec le ML et l'IA, les systèmes de stockage deviennent toujours plus rapides et plus sûrs, et l'IA/le ML peuvent contribuer à réduire les temps de traitement du stockage de données. Les systèmes d'IA/ML peuvent donc non seulement stocker les données, mais ils peuvent aussi traiter les données stockées plus rapidement s'ils sont intégrés aux systèmes de stockage. L'IA augmente la sécurité dans le centre de calcul, y compris pour les systèmes de stockage. Si les entreprises utilisent des systèmes de stockage qui disposent de leur propre IA, les données seront stockées plus rapidement et de façon plus sécurisée. Des fonctions de sécurité intelligentes peuvent empêcher les attaques avant que celles-ci n'aient de trop lourdes répercussions dans le centre de calcul.
Clouds de stockage hybrides
Les systèmes de stockage hybrides jouent un rôle particulièrement important dans l'IA, le ML et le DL. Dans la plupart des cas, stocker les données en local dans le centre de calcul ne suffit pas ; même l'utilisation exclusive de stockages dans le Cloud n'est pas toujours judicieuse. L'idéal est souvent de combiner le stockage des données dans le Cloud et la possibilité d'archiver les données en local. Cette approche bénéficie aux environnements qui misent sur l'IA et le ML, dans lesquels une flexibilité maximale et une évolutivité rapide sont attendues.
Pour les entreprises qui travaillent avec Microsoft Azure, StorSimple est une technologie très intéressante lorsque les données doivent être disponibles rapidement en local et dans le Cloud. StorSimple est une appliance de stockage qui offre des capacités de stockage local parallèlement à un stockage de données dans Microsoft Azure. La connexion à des réseaux internes est assurée par des câbles LAN 10 Gigabit et des cibles iSCSI. Ce produit a été intégré dans la gamme de produits Microsoft par l'acquisition de l'entreprise StorSimple.
Dans de nombreux environnements, le stockage local est également nécessaire pour permettre un stockage intermédiaire, les données sur le Cloud n'étant pas accessibles aussi rapidement que celles stockées en local. Mais ce stockage propose souvent trop peu d'espace et n'est pas aussi évolutif et flexible que le stockage dans le Cloud.
Stockage Flash en réseau : All-Flash et NVMe
Les technologies de stockage conventionnelles ne sont pas capables d'enregistrer les données aussi rapidement que les supports Flash peuvent le faire. On peut s'attendre à ce que les supports de données basés sur Flash soient de plus en plus répandus à l'avenir, car ils offrent des vitesses d'écriture et de lecture des données extrêmement élevées. Il est également probable que les supports Flash gagnent nettement en parts de marché et deviennent ainsi les supports de stockage majoritaires.
Il existe déjà de nombreux fournisseurs proposant la technologie All-Flash reposant sur SSD et NVMe. Une variante hybride procède au stockage rapide des données sur NVMe et à celui des données moins fréquemment utilisées sur SSD. La spécification Non-Volatile Memory Express (NVMe) est utilisée dans les systèmes de stockage performants et permet un accès parallèle massif aux données stockées.
L'archivage est quant à lui assuré exclusivement par des lecteurs conventionnels et par le Cloud. La combinaison de différentes technologies représente souvent une bonne solution, les coûts étant nettement plus bas qu'avec des systèmes intégralement All-Flash.
La tendance au stockage All-Flash s'impose déjà en partie à travers les Flash Data Center. Le stockage des données n'y est plus assuré que par des supports Flash.
Penser aux infrastructures convergées
De plus en plus de centres de calcul misent sur la « Converged Infrastructure », autrement dit l'infrastructure convergée. Il s'agit là de regrouper matériel et logiciel dans le centre de calcul. Les entreprises reposent alors sur un seul fournisseur qui fournit tous les matériels et logiciels nécessaires sous forme de système modulaire. Cela peut être une raison décisive, même en matière de stockage de données, d’opter dans le secteur de l'IA et du ML pour des systèmes qui se trouvent dans un centre de calcul convergé.
Ces systèmes facilitent l'évolutivité sur plusieurs niveaux, ce qui peut être judicieux pour des applications gourmandes en ressources. Ainsi, on fait évoluer non seulement l'espace de stockage, mais aussi les ressources de calcul et les ressources réseau.
Systèmes de fichiers parallèles
Les systèmes de stockage doivent prendre en charge les systèmes de fichiers parallèles. En cas d'accès et d'opérations de stockage, plusieurs secteurs du système de stockage sont automatiquement sollicités en même temps, ce qui implique que la technologie et les logiciels qui lui sont associés doivent en être capables.
Les systèmes de fichiers parallèles sont plus performants que les architectures linéaires, et peuvent traiter ou lire et écrire les données plus rapidement. Les applications d'IA et de ML peuvent ainsi procéder à des analyses importantes, et les données sont toujours accessibles rapidement.
Plus d'automatisation, d'instrumentation et de stockage neuronal
Les systèmes de stockage destinés à l'IA, au ML et au DL seront à l'avenir automatisés pour une large part et pourront exécuter des actions sans intervention humaine.
Le stockage de données est instrumenté par télémétrie afin de collecter et de traiter des données issues de sources non traditionnelles. Ce sont là des scénarios typiques de l'IA, du ML et du DL. Dans les entreprises qui misent sur le stockage des données à définition logicielle, il est possible d'intégrer des algorithmes afin de résoudre les problèmes complexes de gestion du stockage. Selon de nombreux experts, les vrais réseaux neuronaux seront intégrés à l'avenir dans l'infrastructure de stockage, de sorte qu’ils pourront apprendre et développer de nouvelles capacités de façon autonome. La gestion et la manipulation des données s’en verront ainsi améliorées.
Déduplication des données et réduction des données
Même si l'espace de stockage augmente en permanence, les données à stocker sont elles aussi en expansion constante. Pour cette raison, les systèmes de stockage modernes doivent être capables de réduire les données qui ne sont pas utilisées ou de dédupliquer les données stockées plusieurs fois. Sont affectés à cette tâche d'une part les serveurs qui pilotent le stockage des données, et d'autre part les systèmes de stockage. Il est même possible de procéder à la compression automatique ou au transfert des données les moins fréquemment utilisées (Cold Data) vers des supports de données moins onéreux et offrant plus d'espace de stockage, par exemple des bandes magnétiques ou des supports optiques. Dans ce secteur, c'est surtout l'Intelligence Artificielle qui est utilisée, car elle est en mesure de répartir ces données de façon intelligente et de garantir qu'elles ne soient pas stockées plusieurs fois lorsque cela n'est pas nécessaire.