Conseils en matière de stockage pour l'intelligence artificielle et le Machine Learning

Les supports de données destinés aux secteurs de l'intelligence artificielle et du Machine Learning nécessitent une planification particulière. Cet article vous rappelle les points à prendre en compte et ce que vous devez prévoir.

Le stockage de données joue un rôle essentiel dans les secteurs de l'intelligence artificielle (IA) et du Machine Learning (ML). Les volumes de données stockées y sont en effet extrêmement importants, et doivent être accessibles rapidement. Aucun projet d'IA ou de ML ne pourra être rapide, stable et surtout efficace sans un traitement des données qui soit lui-même rapide et efficace. C'est pourquoi la planification d'un stockage optimal joue ici un rôle particulièrement important. Différents points doivent être pris en compte.

Dans un contexte d'IA et de ML, les données d'apprentissage doivent être stockées de sorte à pouvoir être écrites rapidement, même en grandes quantités, et lues tout aussi rapidement.

Tenir compte du prix et de l'évolutivité

De nombreuses entreprises stockent leurs données dans le Cloud lorsqu'il est question de gérer de façon efficace des projets d'IA ou de ML, notamment pour des raisons d'évolutivité. Les espaces de stockage dans le Cloud, comme ceux de Microsoft Azure ou d'Amazon AWS, offrent une évolutivité rapide et facile, et presque illimitée. Les entreprises qui gèrent leurs propres solutions de stockage doivent veiller à ce que celles-ci permettent elles aussi de faire évoluer le support de stockage local rapidement et à des coûts raisonnables. Cet élément doit être pris en compte dès la planification de la solution de stockage. Même si un support de données satisfait aux exigences du moment, cela peut très vite changer lorsque l'IA ou le ML en vient à nécessiter davantage d'espace. Il doit alors être possible d'ajouter de l'espace de stockage de façon à la fois rapide et facile et pour un coût abordable.

Les solutions d'intelligence artificielle traitent des quantités de données importantes en peu de temps. Le système de stockage correspondant doit donc offrir une évolutivité illimitée pour qu'il soit possible d'exploiter de façon efficace un système d'IA et de ML. Les supports de stockage modulaires sont ici la solution idéale.

Évidemment, le prix joue aussi un rôle essentiel. En effet, un volume de stockage illimité coûte la plupart du temps extrêmement cher. En conséquence, il peut arriver que certains systèmes d'IA ou de ML ne puissent pas être exploités de façon rentable parce que le support de stockage associé est trop cher.

Le travail d'administration de la solution de stockage doit lui aussi pouvoir être planifié, et ne doit pas trop s'accroître à mesure que la quantité de données augmente.

Utiliser des fonctions de stockage modernes – envisager les réseaux hyperconvergés et les approches hybrides

Dans l'idéal, la solution de stockage devrait également satisfaire aux exigences modernes afin que l'on évite de miser sur des technologies obsolètes ou d'investir dans une impasse. Les solutions de stockage sur couche logicielle et les infrastructures hyperconvergées sont les principales technologies à prendre en compte lors de la mise en place de supports de données. De même, les appliances s'avèrent souvent judicieuses car elles peuvent aussi être utilisées dans d'autres domaines, et notamment pour les solutions d'IA et de ML.

Nombre d'entreprises rechignent à miser sur le stockage dans le Cloud ou les fonctions de Cloud. Pourtant, et particulièrement dans le domaine de l'IA et du ML, les technologies de Cloud sont quasiment incontournables. C'est pourquoi la solution de stockage choisie doit permettre des approches hybrides, et fonctionner aussi bien dans le centre de calcul local qu'en connexion avec le Cloud. En prenant en charge les technologies hybrides, les entreprises gagnent énormément en flexibilité et en évolutivité.

Sécurité des données et stabilité

La sécurité des supports de stockage doit être garantie en permanence. Les grandes quantités de données stockées par l'IA et le ML ne peuvent être sauvegardées que dans de rares cas. En effet, sauvegarder de telles quantités de données implique naturellement un espace tout aussi conséquent sur les supports de sauvegarde. Cet espace de stockage étant cher et souvent non disponible, de nombreuses entreprises renoncent à sauvegarder ces données. De plus, la durée nécessaire à la sauvegarde de volumes de données aussi énormes est souvent impossible à prévoir dans les fenêtres de sauvegarde. Mais la solution de stockage utilisée pour ces projets doit donc aussi être sécurisée contre les défaillances, et surtout assez stable pour éviter autant que possible toute perte de données. Le système de stockage doit ainsi, dans la mesure du possible, assurer lui-même le stockage des données de sorte à permettre une éventuelle restauration, voire parfois à la rendre inutile.

Garantir la compatibilité avec différents protocoles et permettre les accès en parallèle

Une solution de stockage pour environnements d'IA et de ML doit être en mesure de communiquer avec plusieurs protocoles. Il convient donc de veiller à ce que le serveur soit compatible avec tous les modes d'accès utilisés dans l'entreprise. De plus, le support doit être suffisamment performant et stable pour permettre plusieurs accès en parallèle à ces grandes quantités de données, ce qui est souvent le cas. Il ne doit y avoir aucune perte de connexion lorsque différents secteurs du support sont utilisés en parallèle.

Conclusion

Le stockage dédié à l'IA, au ML et au DL doit être évolutif, rapide et stable, et offrir une compatibilité maximale. Le support de stockage doit prendre en charge aussi bien la connexion au Cloud que l'exploitation en local dans le centre de calcul de l'entreprise. La possibilité d'accéder aux données avec différents protocoles doit être garantie. L'espace de stockage doit naturellement être suffisant, mais à un prix assez avantageux pour que les coûts de stockage n'excèdent pas les bénéfices de la solution d'IA, de ML et de DL. Le débit de données doit être suffisant pour permettre à plusieurs utilisateurs et services d'y accéder en parallèle.

Pour approfondir sur Software Defined Storage