Sergey Nivens - Fotolia
Big Data et analytique : des conseils pour optimiser les traitements
Analyser des données brutes demeure une opération difficile et les entreprises ne sont souvent pas ou peu préparées à affronter la masse de données créée au quotidien. Voici quelques conseils pour mieux s’y retrouver.
Les données sont souvent considérées comme le nouveau pétrole - ce carburant qui alimente nos industries. Mais les données ont plusieurs avantages par rapport au pétrole : elles sont bon marché, faciles à transporter, durables et réutilisables à l’infini. Les données ont également beaucoup plus de cas d’usage et leur rentabilité explique pourquoi la valeur boursière d'Uber est supérieure à celle des constructeurs automobiles traditionnels et pourquoi Airbnb a plus de clients chaque mois que Hyatt.
Cependant, ces données ont besoin d'être raffinées - tout comme le pétrole. Que ces données soient personnelles, transactionnelles, issues du web et de capteurs, le déploiement de traitement Big Data a souvent été difficile, même pour les ordinateurs. Les entreprises devaient auparavant prélever un échantillon représentatif des données pour les analyser, mais ce processus a changé avec l'évolution des outils analytiques Big Data.
Quels sont les problèmes du Big Data
D'ici à 2025, la « sphère de données mondiale » passera à 163 zettaoctets, pense le cabinet d’études IDC. Mais analyser des données de plus d'un million d'enregistrements nécessiterait déjà des techniques spéciales – alors pour une capacité de 163 milliards de fois supérieure la tâche s'avère compliquée...
Le simple fait d'ajouter plus de mémoire et de matériel aux systèmes existants n'apporte que des solutions temporaires - et ce, à un coût considérable. Contrairement au pétrole, les données ne sont jamais consommées. Au lieu de cela, les données s’empilent un peu plus chaque jour.
« Les voitures modernes sont équipées de 60 à 100 capteurs. Lorsqu’il faut gérer des flottes de véhicules, cela représente des téraoctets de données générées chaque seconde. ... Le coût devient prohibitif lorsqu'il s'agit de pétaoctets de données », témoigne Felix Sanchez Garcia, data scientist chez la société britannique GeoSpock.
Le traitement des Big Data requiert des algorithmes et une nouvelle méthode de programmation, plutôt que de simplement ajouter du matériel supplémentaire. Une solution largement utilisée est l'indexation et le partitionnement des données – cela apporte un meilleur accès. GeoSpock s’appuie par exemple sur l'indexation des données pour traiter et organiser les données et les récupérer en moins d'une seconde. Il ingère et traite des données brutes, puis crée un index organisé qui préserve chaque enregistrement des jeux de données originaux.
Les algorithmes sont aussi devenus plus intelligents et cela a permis aux entreprises de récolter des données à partir d'images, de vidéos et de fichiers audio, ouvrant alors la porte à de nouvelles générations d'applications capables de « regarder et d’entendre ». Ces progrès permettent aux machines de scanner les images et de taguer les objets ou les personnes qu'elles détectent. Cela peut également être utilisé dans la collecte de renseignements commerciaux et concurrentiels.
Optimiser l’usage du Big Data
L'intelligence artificielle offre des avantages dans ce domaine. Elle exige de grandes quantités de données pour fonctionner correctement. Dans ce domaine, les outils proposent une vue d'ensemble des données pour identifier celles qui sont plus utiles et celles qui ont moins de valeur. Cela permet d’établir des priorités. Ainsi, les requêtes peuvent porter sur ce qui est le plus utile à analyser, plutôt que sur le jeu complet des données.
Un autre outil très efficace - et surtout nécessaire - est la visualisation des données. Elle est au cœur de l'analyse des Big Data, car elle permet d'agréger les données afin de faire émerger des patterns. Ces données s'avèrent précieuses lorsqu’on souhaite par exemple analyser la performance des ventes et l'efficacité des campagnes publicitaires ciblées.
La visualisation des données peut également déterminer si des données importantes manquent dans les traitements.
« Très souvent, les entreprises consacrent d'importantes ressources à la collecte de données en espérant qu'elles seront utiles à l'avenir. Elles se rendent compte à ce moment-là que des éléments manquent ou que le niveau de qualité des données de ces jeux de données ne permet pas de les utiliser », commente Felix Sanchez Garcia. « Il est intéressant de noter que l'un des effets positifs du GDPR est que les entreprises sont obligées d'effectuer un inventaire des données et de réfléchir à ce qu'elles espèrent en faire. »
Alors que les récentes défaillances - en particulier dans l'industrie automobile - jettent le doute sur les capacités même de l'intelligence artificielle, la structure de données sous-jacente prend un poids considérable. Qu'il s'agisse de créer des algorithmes de Machine Learning ou d'aider les humains à prendre de meilleures décisions, savoir quelles données collecter, leurs sources et comment les stocker et les traiter permet de mieux tirer parti de ces grandes avancées de l’IT moderne – le Big Data en fait partie.
Pour approfondir sur Outils décisionnels et analytiques
-
Symposium Gartner : pourquoi le succès des transformations digitales est-il si aléatoire ?
-
Booking.com franchit le pas du machine learning vers l’IA générative
-
ESG et sobriété numérique : sujets majeurs pour les Clubs utilisateurs Oracle
-
Le DSI, chef d’orchestre en devenir d’une stratégie numérique unifiée (Gartner)