ra2 studio - Fotolia

Conseil

Data Science : différence entre intervalle de confiance, niveaux de confiance et de signification

En statistiques, et donc en data science, il est important de comprendre les résultats d’une étude ou d’une analyse au sein d’une population de clients ou d’utilisateurs. Ce conseil établit la différence entre l’intervalle de confiance, le niveau de confiance et le niveau de signification.

par

Stephanie Glen

Publié le: 29 nov. 2021

Les statistiques ne sont pas exactement une science. De nombreux termes sont sujets à interprétation, et il y a plusieurs mots qui désignent la même chose, comme « moyenne » (mean) et « moyen » (average), ou qui semblent le faire, tels le niveau de signification et le niveau de confiance.

Bien qu’ils paraissent très similaires, le niveau de signification et le niveau de confiance sont en fait deux concepts complètement différents. Les niveaux de confiance et les intervalles de confiance apparaissent également liés ; ils sont généralement utilisés en conjonction les uns avec les autres, ce qui ajoute à la confusion. Il s’agit en réalité de faire la distinction entre trois notions :

Le niveau de signification : au cours d’un test d’hypothèse, le niveau de signification, alpha, est la probabilité de prendre la mauvaise décision lorsque l’hypothèse nulle est vraie.

Le niveau de confiance : détermine la probabilité que si un sondage/test/enquête est répété maintes et maintes fois, les résultats obtenus soient les mêmes. Un niveau de confiance = 1 – alpha.

L’Intervalle de confiance : correspond à une plage de résultats d’un sondage, d’une expérience ou d’une enquête qui devrait contenir le paramètre de population d’intérêt. Par exemple, une réponse moyenne. Les intervalles de confiance sont construits à l’aide de niveaux de signification/niveaux de confiance.

Approfondissons ces notions.

Niveau de confiance vs intervalle de confiance

Lorsqu’un intervalle de confiance (IC) et un niveau de confiance (CL) sont réunis, le résultat est une répartition statistiquement solide des données. Par exemple, un résultat peut être indiqué comme « 50 % ± 6 %, avec un niveau de confiance de 95 % ». Décomposons ce processus en différentes parties :

L’intervalle de confiance : 50 % ± 6 % = 44 % à 56 %
Le niveau de confiance : 95 %

Les intervalles de confiance sont une plage de résultats où vous vous escomptez à ce que la véritable valeur soit affichée.

Les intervalles de confiance sont intrinsèquement liés au niveau de confiance. Les niveaux de confiance sont exprimés en pourcentage (par exemple, un niveau de confiance de 90 %). Si vous répétez une expérience ou une enquête avec un niveau de confiance de 90 %, nous nous attendons à ce que 90 % du temps à obtenir ce résultat auprès de la population cible. Les intervalles de confiance sont une plage de résultats où vous vous escomptez à ce que la véritable valeur soit affichée. Par exemple, vous interrogez un groupe de consommateurs pour connaître le nombre d’achats via l’application effectués par an. Votre test est au niveau de confiance de 99 % et le résultat est un intervalle de confiance de (250, 300). Cela signifie que vous pensez qu’ils acquièrent entre 250 et 300 articles intégrés à l’application par an, et vous êtes sûr que si l’enquête est répétée, 99 % du temps les résultats seront les mêmes.

L’intervalle de confiance

Ce sondage Gallup indique à la fois un IC et un CL. Le résultat du sondage concerne les réponses aux affirmations selon lesquelles l’élection présidentielle de 2016 a été « truquée », deux Américains sur trois (66 %) ayant déclaré avant l’élection « … qu’ils sont “très” ou “assez confiants” dans le fait que les votes seront exprimés et comptés avec exactitude dans tout le pays. » Plus bas dans le document, on trouve plus d’informations sur cette statistique : « La marge d’erreur d’échantillonnage est de ±6 points de pourcentage à un niveau de confiance de 95 %. »

Prenons d’abord le pourcentage indiqué. Le résultat de « 66 % » n’est qu’une partie du tableau. Il s’agit d’une estimation, et si vous essayez simplement de vous faire une idée générale de l’opinion des gens sur le trucage des élections, alors 66 % devraient suffire dans la plupart des cas d’usage, comme un discours, un article de journal, ou une discussion avec un proche. Cependant, il pourrait être intéressant pour vous d’obtenir plus d’informations sur la qualité réelle de cette estimation. Par exemple, l’estimation réelle pourrait se situer entre 46 % et 86 % (ce qui serait en fait une mauvaise estimation), ou les sondeurs pourraient avoir un chiffre très précis : entre, disons, 64 % et 68 %. Cet écart de pourcentages (de 46 % à 86 % ou de 64 % à 68 %) constitue l’intervalle de confiance. Mais quelle est la qualité de ce sondage spécifique ? La réponse se trouve dans cette ligne :

« La marge d’erreur d’échantillonnage est de ±6 points de pourcentage… »

Cette marge d’erreur nous dit que les 66 % rapportés pourraient être de 6 % dans les deux sens. Notre intervalle de confiance est donc en fait de 66 %, plus ou moins 6 %, ce qui donne une fourchette possible de 60 % à 72 %.

Le niveau de confiance

Encore une fois, les informations ci-dessus sont probablement suffisantes pour la plupart des besoins. Mais, pour le bien de la science, disons que vous souhaitez être un peu plus rigoureux. Ce n’est pas parce qu’un sondage donne un certain résultat qu’il est le reflet exact de l’opinion publique dans son ensemble. En fait, de nombreuses études réalisées par des entreprises différentes engendrent souvent des résultats contrastés pour la même population, principalement parce que l’échantillonnage (qui consiste à interroger une fraction de la population au lieu de la totalité) ne permet pas d’obtenir une grande précision.

Pour que les évaluations d’un sondage soient statistiquement fiables, il faut savoir si la répétition de l’opération amènerait à chaque fois des résultats identiques. C’est là qu’intervient le niveau de confiance : il indique dans quelle mesure vous êtes certain que les pourcentages exprimés (qu’il s’agisse d’un sondage, d’un test ou d’une expérience) peuvent être répétés à l’infini et générer des conclusions chiffrées similaires. Dans un monde parfait, l’on pourrait espérer un niveau de confiance de 100 %. En d’autres termes, vous voulez être sûr à 100 % que si un institut d’analyse concurrent, une entité publique ou un simple citoyen ne peuvent obtenir des retours différents. Mais il s’agit de statistiques, et rien n’est jamais certain à 100 %. En général, les niveaux de confiance tournent autour de 90-98 %.

Pour cet exemple particulier, Gallup a indiqué un « niveau de confiance de 95 % », ce qui signifie que si le sondage devait être répété, Gallup s’attendrait à obtenir les mêmes résultats dans 95 % des cas.

Un niveau de confiance de 0 % signifie que vous n’avez aucune confiance dans le fait que si vous répétez l’enquête, vous obtiendrez les mêmes résultats. En fait, vous êtes sûr que les résultats seraient complètement différents.
Un niveau de confiance de 100 % signifie qu’il ne fait aucun doute que si vous répétez l’enquête, vous obtiendrez les mêmes résultats. Les résultats seraient reproductibles dans 100 % des cas.

Niveau de confiance et niveau de signification

Plus haut, nous avons défini un niveau de confiance comme la réponse à la question : « … si le sondage/test/expérience était répété (encore et encore), les résultats seraient-ils les mêmes ? ». En substance, les niveaux de confiance traitent de la répétabilité. Les niveaux de signification, en revanche, n’ont rien à voir avec cette caractéristique. Ils sont fixés au début d’une expérience spécifique (un « test d’hypothèse ») et sont contrôlés par l’analyste ou le data scientist.

Le niveau de signification (également appelé niveau alpha) est un terme utilisé pour tester une hypothèse. Plus précisément, il s’agit de la probabilité de prendre une mauvaise décision lorsque l’hypothèse nulle est vraie. En langage statistique, une autre façon de le dire est qu’il s’agit de la probabilité de commettre une erreur de type 1.

Construction d’intervalles de confiance avec des niveaux de signification

En utilisant la distribution normale, vous pouvez créer un intervalle de confiance pour tout niveau de signification à l’aide de cette formule :

statistique de l’échantillon ± z*(erreur standard)
(z* = multiplicateur)

Les intervalles de confiance sont construits autour d’une estimation ponctuelle (comme la moyenne) à l’aide d’un tableau statistique, qui affiche des plages connues pour des données normalement distribuées. Les données normalement distribuées sont préférables parce que les données ont tendance à se comporter d’une manière connue, un certain pourcentage de données se trouvant à une certaine distance de la moyenne. Par exemple, une estimation ponctuelle se situera à l’intérieur de l’écart-type 1.96 environ 95 % du temps.

Cet article est originellement paru dans les colonnes de DataScienceCentral.com, propriété de Techtarget, également propriétaire du MagIT.

Stephanie Glen est une contributrice de DataScienceCentral.com. Après avoir travaillé pendant plusieurs années à l’enseignement des mathématiques et des statistiques au niveau universitaire, elle a créé et développé le site Web StatisticsHowTo.com.

Data Science : différence entre intervalle de confiance, niveaux de confiance et de signification

Niveau de confiance vs intervalle de confiance

L’intervalle de confiance

Le niveau de confiance

Niveau de confiance et niveau de signification

Pour approfondir sur Intelligence Artificielle et Data Science

Qu'est-ce que l'erreur de prédiction ?

CX : avec ou sans IA, les chatbots ne séduisent pas

Les développeurs perdent confiance dans les résultats de la GenAI (étude)

Pourquoi ne pas se précipiter pour déployer l’analytique en temps réel