Durée: 12 mois
Rubrique: Ingénieur IA
La régression logistique est une méthode statistique utilisée pour modéliser une variable dépendante binaire, c'estàdire une variable qui prend deux valeurs possibles, typiquement codées comme 0 et 1. Contrairement à la régression linéaire, qui est utilisée pour les variables dépendantes continues, la régression logistique est adaptée aux résultats de type "succèséchec".
L'idée principale de la régression logistique est de trouver une relation entre une variable dépendante binaire (Y) et un ensemble de variables explicatives (X1, X2, ..., Xn). La méthode cherche à estimer la probabilité que (Y) prenne la valeur 1 (succès) donnée une combinaison spécifique des variables explicatives.
La propriété distinctive de la régression logistique est qu'elle utilise une fonction logistique pour modéliser la relation entre les variables. La fonction logistique (ou sigmoïdale) est définie comme suit:
[ \sigma(z) = \frac{1}{1 + e^{z}} ]
où (z) est une combinaison linéaire des variables explicatives de la forme (z = \beta0 + \beta1 X1 + \beta2 X2 + ... + \betan Xn).
En régression logistique, nous modélisons le logarithme des cotes ((logit)) de l'événement (Y = 1):
[ \text{logit}(P(Y=1|X)) = \log\left(\frac{P(Y=1|X)}{1 P(Y=1|X)}\right) = \beta0 + \beta1 X1 + ... + \betan Xn ]
Cette transformation permet de linéariser la relation à estimer, facilitant ainsi l'ajustement du modèle.
Les paramètres (\beta0, \beta1, ..., \betan) sont généralement estimés par la méthode de maximum de vraisemblance. L'idée est de trouver les valeurs des paramètres qui maximisent la probabilité d'observer les données réelles données les valeurs des variables explicatives.
Supposons que nous souhaitons prédire si un individu achète (Y=1) ou non (Y=0) un produit en fonction de son âge (X1) et de son revenu (X2). La régression logistique peut modéliser cette relation comme suit:
[ P(Y=1|X1, X2) = \frac{1}{1 + e^{(\beta0 + \beta1 X1 + \beta2 X2)}} ]
Si (\beta0 = 6), (\beta1 = 0.05), et (\beta2 = 0.1), alors, pour un individu de 30 ans avec un revenu de 50, nous avons:
[ P(Y=1|X1=30, X2=50) = \frac{1}{1 + e^{(6 + 0.05 \cdot 30 + 0.1 \cdot 50)}} ]
[ = \frac{1}{1 + e^{(0.5)}} = \frac{1}{1 + e^{0.5}} \approx 0.3775 ]
Ainsi, la probabilité estimée que cet individu achète le produit est d'environ 37,75%.