Data Visualization (ou DataViz)
Qu'est-ce que la visualisation de données ?
La visualisation des données consiste à traduire les informations dans un contexte visuel, tel qu'une carte ou un graphique, afin de faciliter la compréhension des données par le cerveau humain et d'en tirer des enseignements. L'objectif principal de la visualisation des données est de faciliter l'identification de modèles, de tendances et de valeurs aberrantes dans de grands ensembles de données. Le terme est souvent utilisé de manière interchangeable avec d'autres termes, y compris les graphiques d'information, la visualisation de l'information et les graphiques statistiques.
La visualisation des données est l'une des étapes du processus de la data-science, qui stipule qu'une fois les données collectées, traitées et modélisées, elles doivent être visualisées pour que des conclusions puissent être tirées. La visualisation des données est également un élément de la discipline plus large de l'architecture de présentation des données (DPA), qui vise à identifier, localiser, manipuler, formater et fournir des données de la manière la plus efficace possible.
La visualisation des données est importante pour presque tous les métiers. Elle peut être utilisée par les enseignants pour afficher les résultats des tests des élèves, par les informaticiens qui explorent les progrès de l'intelligence artificielle (IA) ou par les cadres qui cherchent à partager des informations avec les parties prenantes. Elle joue également un rôle important dans les projets de big data. Lorsque les entreprises ont accumulé des collections massives de données au cours des premières années de la tendance big data, elles ont eu besoin d'un moyen d'obtenir une vue d'ensemble de leurs données rapidement et facilement. Les outils de visualisation se sont imposés naturellement.
La visualisation est au cœur de l'analyse avancée pour des raisons similaires. Lorsqu'un scientifique des données écrit des algorithmes avancés d'analyse prédictive ou d'apprentissage automatique, il devient important de visualiser les résultats pour surveiller les résultats et s'assurer que les modèles fonctionnent comme prévu. En effet, les visualisations d'algorithmes complexes sont généralement plus faciles à interpréter que les résultats numériques.
Pourquoi la visualisation des données est-elle importante ?
La visualisation des données est un moyen rapide et efficace de communiquer des informations de manière universelle à l'aide d'informations visuelles. Cette pratique peut également aider les entreprises à identifier les facteurs qui influencent le comportement des clients, à mettre en évidence les domaines qui doivent être améliorés ou qui nécessitent plus d'attention, à rendre les données plus mémorables pour les parties prenantes, à comprendre quand et où placer des produits spécifiques et à prédire les volumes de vente.
Les autres avantages de la visualisation des données sont les suivants :
- la capacité d'absorber rapidement des informations, d'améliorer la compréhension et de prendre des décisions plus rapidement ;
- une meilleure compréhension des prochaines étapes à franchir pour améliorer l'organisation ;
- une meilleure capacité à maintenir l'intérêt de l'auditoire avec des informations qu'il peut comprendre ;
- une distribution aisée de l'information qui augmente la possibilité de partager les connaissances avec toutes les personnes concernées ;
- éliminer la nécessité de faire appel à des spécialistes des données, car les données sont plus accessibles et plus compréhensibles ; et
- une plus grande capacité à agir rapidement sur les résultats et, par conséquent, à réussir plus rapidement et avec moins d'erreurs.
Visualisation des données et big data
La popularité croissante des projets de big data et d'analyse de données a rendu la visualisation plus importante que jamais. Les entreprises utilisent de plus en plus l'apprentissage automatique pour collecter des quantités massives de données qu'il peut être difficile et lent de trier, de comprendre et d'expliquer. La visualisation offre un moyen d'accélérer ce processus et de présenter les informations aux chefs d'entreprise et aux parties prenantes de manière à ce qu'ils puissent les comprendre.
La visualisation des big data va souvent au-delà des techniques typiques utilisées dans la visualisation normale, telles que les camemberts, les histogrammes et les graphiques d'entreprise. Elle utilise plutôt des représentations plus complexes, telles que les cartes "thermiques" et les diagrammes. La visualisation des big data nécessite des systèmes informatiques puissants pour collecter les données brutes, les traiter et les transformer en représentations graphiques que les humains peuvent utiliser pour en tirer rapidement des enseignements.
Si la visualisation des big data peut être bénéfique, elle peut aussi présenter plusieurs inconvénients pour les organisations. Ces inconvénients sont les suivants :
- Pour tirer le meilleur parti des outils de visualisation des big data, il faut engager un spécialiste de la visualisation. Ce spécialiste doit être capable d'identifier les meilleurs ensembles de données et les meilleurs styles de visualisation afin de garantir que les organisations optimisent l'utilisation de leurs données.
- Les projets de visualisation des big data nécessitent souvent l'implication du service informatique, ainsi que de la direction, car la visualisation des big data requiert du matériel informatique puissant, des systèmes de stockage efficaces, voire le passage à l'informatique dématérialisée (cloud).
- Les informations fournies par la visualisation des big data ne seront pas plus précises que les informations visualisées. Il est donc essentiel de mettre en place des personnes et des processus pour régir et contrôler la qualité des données, des métadonnées et des sources de données de l'entreprise.
Exemples de visualisation de données
Dans les premiers temps de la visualisation, la technique de visualisation la plus courante consistait à utiliser une feuille de calcul Microsoft Excel pour transformer les informations en un tableau, un diagramme à barres ou un diagramme circulaire. Bien que ces méthodes de visualisation soient encore couramment utilisées, des techniques plus complexes sont désormais disponibles, notamment les suivantes :
- infographies
- nuages de bulles
- bullet graphs
- cartes thermiques
- tableaux de fièvre
- graphiques de séries chronologiques
Voici quelques autres techniques courantes :
Graphiques linéaires. Il s'agit de l'une des techniques les plus élémentaires et les plus courantes. Les graphiques linéaires montrent comment les variables peuvent évoluer dans le temps.
Graphiques en aires. Cette méthode de visualisation est une variante du graphique linéaire ; elle affiche plusieurs valeurs dans une série temporelle - ou une séquence de données collectées à des moments consécutifs et également espacés dans le temps.
Diagrammes de dispersion. Cette technique permet de visualiser la relation entre deux variables. Un diagramme de dispersion se présente sous la forme d'un axe des abscisses et d'un axe des ordonnées avec des points représentant les points de données.
Les cartes arborescentes. Cette méthode permet de présenter des données hiérarchiques dans un format emboîté. La taille des rectangles utilisés pour chaque catégorie est proportionnelle à son pourcentage dans l'ensemble. Les arborescences sont utilisées de préférence lorsque plusieurs catégories sont présentes et que l'objectif est de comparer différentes parties d'un tout.
Pyramides des âges. Cette technique utilise un graphique à barres empilées pour présenter le récit social complexe d'une population. Elle est particulièrement utile lorsqu'il s'agit d'illustrer la répartition d'une population.
Cas d'utilisation courants de la visualisation de données
Les cas d'utilisation courants de la visualisation des données sont les suivants :
Les ventes et le marketing. Selon une étude du fournisseur de données sur le marché et les consommateurs Statista, 566 milliards de dollars ont été dépensés en publicité numérique en 2022 et ce chiffre dépassera les 700 milliards de dollars d'ici à 2025. Les équipes marketing doivent prêter une attention particulière à leurs sources de trafic web et à la manière dont leurs propriétés web génèrent des revenus. La visualisation des données permet de voir facilement comment les efforts de marketing influent sur les tendances du trafic au fil du temps.
Politique. Une utilisation courante de la visualisation de données en politique est une carte géographique qui affiche le parti pour lequel chaque État ou district a voté.
Santé. Les professionnels de la santé utilisent fréquemment des cartes choroplèthes (carte thématique où les régions sont colorées ou remplies d'un motif qui montre une mesure statistique) pour visualiser des données sanitaires importantes. Une carte choroplèthe présente des zones géographiques ou des régions divisées auxquelles est attribuée une certaine couleur en fonction d'une variable numérique. Les cartes choroplèthes permettent aux professionnels de voir comment une variable, telle que le taux de mortalité des maladies cardiaques, évolue sur des territoires spécifiques.
Les scientifiques. La visualisation scientifique, parfois appelée SciVis, permet aux scientifiques et aux chercheurs de mieux comprendre leurs données expérimentales qu'auparavant.
La finance. Les professionnels de la finance doivent suivre les performances de leurs décisions d'investissement lorsqu'ils choisissent d'acheter ou de vendre un actif. Les graphiques en chandeliers sont utilisés comme outils de négociation et aident les professionnels de la finance à analyser les mouvements de prix au fil du temps, en affichant des informations importantes, telles que les titres, les produits dérivés, les devises, les actions, les obligations et les matières premières. En analysant l'évolution des prix dans le temps, les analystes de données et les professionnels de la finance peuvent détecter des tendances.
Logistique. Les entreprises de transport maritime peuvent utiliser des outils de visualisation pour déterminer les meilleurs itinéraires de transport mondial.
Les data-scientists et les chercheurs. Les visualisations élaborées par les scientifiques des données sont généralement destinées à leur propre usage ou à la présentation d'informations à un public sélectionné. Les représentations visuelles sont construites à l'aide des bibliothèques de visualisation des langages de programmation et des outils choisis. Les data-scientists et les chercheurs utilisent fréquemment des langages de programmation Open Source - tels que Python - ou des outils propriétaires conçus pour l'analyse de données complexes. La visualisation des données effectuée par ces scientifiques et chercheurs les aide à comprendre les ensembles de données et à identifier des modèles et des tendances qui seraient autrement passés inaperçus.
La science de la visualisation des données
La science de la visualisation des données repose sur la compréhension de la manière dont les êtres humains recueillent et traitent l'information. Daniel Kahn et Amos Tversky ont collaboré à des recherches qui ont défini deux méthodes différentes de collecte et de traitement de l'information.
Le système 1 se concentre sur le traitement rapide, automatique et inconscient de la pensée. Cette méthode est fréquemment utilisée dans la vie quotidienne et aide à accomplir :
- lire le texte d'un panneau ;
- résoudre des problèmes mathématiques simples, comme 1+1 ;
- identifier la provenance d'un son ;
- faire du vélo ; et
- déterminer la différence entre les couleurs.
Le système 2 est axé sur un traitement lent, logique, calculateur et peu fréquent de la pensée. Cette méthode est utilisée dans l'une des situations suivantes :
- réciter un numéro de téléphone ;
- résoudre des problèmes mathématiques complexes, comme 132 x 154 ;
- déterminer la différence de signification entre plusieurs signes juxtaposés ; et
- comprendre les signaux sociaux complexes.
Outils de visualisation des données et fournisseurs
Les outils de visualisation des données peuvent être utilisés de différentes manières. L'utilisation la plus courante aujourd'hui est celle d'un outil de rapport d'intelligence économique (BI). Les utilisateurs peuvent configurer des outils de visualisation pour générer des tableaux de bord automatiques qui permettent de suivre les performances de l'entreprise en fonction d'indicateurs clés de performance (ICP) et d'interpréter visuellement les résultats.
Les images générées peuvent également inclure des capacités interactives, permettant aux utilisateurs de les manipuler ou d'examiner les données de plus près à des fins de questionnement et d'analyse. Des indicateurs conçus pour alerter les utilisateurs lorsque les données ont été mises à jour ou lorsque des conditions prédéfinies sont réunies peuvent également être intégrés.
De nombreux services mettent en œuvre des logiciels de visualisation des données pour suivre leurs propres initiatives. Par exemple, une équipe de marketing peut utiliser le logiciel pour contrôler les performances d'une campagne de courrier électronique, en suivant des paramètres tels que le taux d'ouverture, le taux de clics et le taux de conversion.
Au fur et à mesure que les fournisseurs de logiciels de visualisation de données étendent les fonctionnalités de ces outils, ceux-ci sont de plus en plus utilisés comme interfaces pour des environnements de big data plus sophistiqués. Dans ce contexte, les logiciels de visualisation de données aident les ingénieurs et les scientifiques à suivre les sources de données et à effectuer une analyse exploratoire de base des ensembles de données avant ou après des analyses avancées plus détaillées.
Les plus grands noms du marché des outils de big data sont Microsoft, IBM, SAP et SAS. D'autres éditeurs proposent des logiciels spécialisés dans la visualisation des big data ; les noms les plus populaires sur ce marché sont Tableau, Qlik et Tibco.
Si Microsoft Excel reste un outil populaire pour la visualisation des données, d'autres outils plus sophistiqués ont été créés :
- IBM Cognos Analytics
- Qlik Sense et QlikView
- Microsoft Power BI
- Oracle Visual Analyzer
- SAP Lumira
- SAS Visual Analytics
- Tibco Spotfire
- Zoho Analytics
- D3.js
- Jupiter
- MicroStrategy
- Google Charts