Definition

Régression logistique

La régression logistique est une méthode d'analyse statistique qui consiste à prédire une valeur de données d'après les observations réelles d'un jeu de données.

La régression logistique est devenue un outil important dans la discipline de l'apprentissage automatique. Cette approche permet d'utiliser un algorithme dans l'application d'apprentissage automatique pour classer les données entrantes en fonction des données historiques. Plus il y a de données pertinentes en entrée, plus l'algorithme est en mesure de prédire des classifications au sein des jeux de données.

La régression logistique peut également jouer un rôle dans la préparation des données, en permettant aux jeux de données d'être répartis dans des catégories spécialement définies au cours du processus d'extraction, transformation et chargement (ETL, Extract, Transform, Load) afin d'organiser les informations aux fins d'analyse.

Un modèle de régression logistique prédit une variable de données dépendante en analysant la relation entre une ou plusieurs variables indépendantes.
Par exemple, la régression logistique pourrait répondre aux questions suivantes : quelle est la probabilité pour qu'un candidat politique remporte ou perde une élection ? Ou quelles sont les chances d'admission d'un bachelier à une grande école particulière ?

Le modèle analytique qui en résulte peut tenir compte de plusieurs critères en entrée. Dans l'exemple du bachelier, il pourrait s'agir de la moyenne générale de l'élève, de ses notes aux épreuves du baccalauréat et du nombre d'activités parascolaires. D'après les données historiques liées aux résultats antérieurs impliquant les mêmes critères en entrée, le modèle classe les nouveaux cas en fonction de leur probabilité à se trouver dans une catégorie de résultats particulière.

Objectif et exemples de régression logistique

La régression logistique est l'un des algorithmes d'apprentissage autiomatique les plus couramment utilisés pour les problèmes de classification binaire, lesquels ont deux valeurs par classe, comprenant des prédictions telles que "ceci ou cela", "oui ou non" et "A ou B".

Le but de la régression logistique est d'estimer les probabilités des événements et de déterminer une relation entre les caractéristiques et les probabilités de résultats particuliers.

Par exemple, on peut prédire si un étudiant réussira ou échouera à un examen lorsque le nombre d'heures consacrées à l'étude est fourni en tant que caractéristique et que les variables de la réponse ont deux valeurs : réussite et échec.

Les entreprises peuvent utiliser les résultats de la régression logistique pour améliorer leurs stratégies d'entreprise afin d'atteindre leurs objectifs commerciaux, notamment en réduisant les dépenses ou les pertes et en augmentant le retour sur investissement dans les campagnes marketing, par exemple.

Une entreprise de commerce électronique qui envoie par la poste des offres promotionnelles coûteuses à ses clients aimerait savoir si un client en particulier est susceptible ou non de répondre à ces offres. Par exemple, ils voudront savoir si ce consommateur sera un « répondant » ou un « non-répondant ». En marketing, c'est ce qu'on appelle la propension à répondre à la modélisation.

De même, une société émettrice de cartes de crédit élabore un modèle pour décider si elle émettra ou non une carte de crédit à un client et tentera de prédire si ce dernier sera en défaut de paiement ou non en fonction de caractéristiques telles que le revenu annuel, les paiements mensuels par carte de crédit et le nombre de défauts. Dans le langage bancaire, c'est ce qu'on appelle la modélisation du risque de défaut.

Utilisations de la régression logistique

La régression logistique est devenue particulièrement populaire dans la publicité en ligne, ce qui permet aux spécialistes du marketing de prédire, sous forme de pourcentages oui/non, la probabilité qu'un internaute clique sur des annonces données.

La régression logistique peut également être utilisée dans :

    -Les soins de santé pour identifier les facteurs de risque de maladies et planifier des mesures préventives.

    -Les applications de prévision météorologique pour prévoir les chutes de neige et les conditions météorologiques.

    -Des applications de vote pour déterminer si les électeurs voteront pour un candidat en particulier.

    -Les assurances, pour prédire les chances qu'un titulaire d’une police décède avant l'expiration de celle-ci en fonction de certains critères, comme le sexe, l'âge et l'examen physique.

    -Les opérations bancaires pour prédire les chances qu'un demandeur de prêt manque à ses engagements ou non, en fonction du revenu annuel, des défauts de paiement passés et des dettes passées.

Régression logistique vs régression linéaire

La principale différence entre la régression logistique et la régression linéaire est que la régression logistique fournit un résultat constant, tandis que la régression linéaire fournit un résultat continu.

Dans la régression logistique, le résultat, tel qu'une variable dépendante, n'a qu'un nombre limité de valeurs possibles. Cependant, en régression linéaire, le résultat est continu, ce qui signifie qu'il peut avoir n'importe laquelle parmi un nombre infini de valeurs possibles.

La régression logistique est utilisée lorsque la variable réponse est catégorique, comme oui/non, vrai/faux et réussite/échec. La régression linéaire est utilisée lorsque la variable réponse est continue, comme le nombre d'heures, la taille et le poids.

Par exemple, compte tenu des données sur le temps passé par un étudiant à étudier et de ses résultats à l'examen, la régression logistique et la régression linéaire peuvent prédire différentes choses.

Avec les prédictions de régression logistique, seules des valeurs ou des catégories spécifiques sont autorisées. Par conséquent, la régression logistique peut prédire si l'élève a réussi ou échoué. Puisque les prédictions de régression linéaire sont continues, comme les nombres dans une plage, elles peuvent prédire le résultat de l'élève sur une échelle de 0 à 100.

Cette définition a été mise à jour en juillet 2019

Pour approfondir sur Outils décisionnels et analytiques