Les meilleures pratiques de planification du stockage des données d'intelligence artificielle (IA)
La planification du stockage AI est similaire à la planification du stockage à laquelle vous êtes habitué : Il s’agit de tenir compte de la capacité, des IOPS, et des exigences de fiabilité des données sources et de votre application SGBD.
Les progrès de la puissance de calcul, le volume de données disponibles en ligne et l'amélioration des algorithmes d'intelligence artificielle ont finalement rendu l'IA pratique. Mais comment mettre en œuvre le stockage de données dédié à l’IA ?
Il n'existe pas de solution universelle. Chaque application d'IA est différente, tout comme les données qui y sont associées. Par conséquent, vous devez tenir compte d'un certain nombre de prérequis différents lorsque vous planifiez le stockage des données de l'IA.
- Quelle est la nature de la source de vos données ?
Les applications d'IA dépendent des données source ; vous devez savoir où ces dernières se trouvent et de quelle manière votre application les opère.
Supposons qu'une application d'IA particulière soit conçue pour prendre des décisions basées sur les données issue d'une collection de capteurs industriels dans le cadre d’une infrastructure IoT. Vous devez savoir si l'application traite ou non les données du capteur comme des données transitoires. L'application peut-elle analyser les données des capteurs en temps quasi réel lorsqu'elles arrivent ou bien a-t-elle besoin de stocker les données et de les analyser ensuite ?
Si l'application analyse les données en post-traitement, il s’agit de résoudre d’autres problèmes avant de concevoir votre infrastructure de stockage de données destinée à intelligence artificielle.
Si l'application analyse les données du capteur en temps réel, vous n'avez pas besoin de stocker ces données (sauf dans un cache temporaire). Mais si l'application analyse les données a posteriori du traitement alors il convient par exemple de savoir si l'application peut purger les données source après leur analyse, ou si vous devez en conserver une copie pour que le logiciel puisse occasionnellement les réanalyser. L'une ou l'autre réponse a des répercussions sur le volume de données que vous devez conserver. Vous devez également vous assurer que le back-end de stockage peut suivre le rythme du flux des nouvelles données qui affluent dans l'application.
- Quelle quantité de données l'application d'IA produira-t-elle ?
Un autre facteur tout aussi important pour le stockage de données d'intelligence artificielle est le volume de données que l'application va produire. Les applications d'IA produisent leurs propres données ; elles analysent généralement les données sources, puis écrivent les résultats de l'analyse dans une base de données back-end que le système d’arborescence de l'application peut utiliser. Il ne serait pas pratique pour une application d'IA d'analyser plusieurs téraoctets ou même des pétaoctets de données chaque fois que le logiciel doit prendre une décision. Il est beaucoup plus pratique pour l'application d'interroger une base de données d'informations qui a déjà été analysée.
L'une des caractéristiques qui définissent l'IA est que les applications peuvent prendre de meilleures décisions à mesure qu'elles sont exposées à plus de données en fonction d’une courbe d’apprentissage. La base de données de l'application s'enrichira au fil du temps, il s’agit donc de surveiller sa croissance rapide et effectuer la planification des capacités en conséquence.
- Quels seront les usages prioritaires de l’outil d’IA ?
Vous devez tenir compte du nombre de personnes qui utiliseront l'application à un moment donné et de la rapidité avec laquelle l'application devra fournir les informations aux utilisateurs. L’infrastructure de stockage attenante devra être suffisamment conséquente pour les cas d’usage envisagés.